python
qq_43059674
划水摸鱼
展开
-
python爬取数据 Unicode 编码转中文
爬去数据的时候会有这种现象解决方式 str= str.text.encode("gb2312").decode('unicode_escape');原创 2020-01-14 10:53:52 · 1088 阅读 · 0 评论 -
Python实现数据报表【Matplotlib】
柱形图"""使用Matplotlib模块:实现数据可视化"""import matplotlib.pyplot as plt"""实现柱形图:需求:展示 张三、李四、王五 的每个月工资"""classes = ["张三", "李四", "王五"]avgSalary = [6666, 9999, 8888]plt.bar(classes, avgSalary)# 设置...原创 2019-12-03 16:46:58 · 544 阅读 · 0 评论 -
python实现词云图效果
什么是云词图,比如这种,就是由海量的词汇然后经过处理把出现出现词汇展示出来的一张图jieba 分词库jieba库是优秀的中文分词库安装jieba:pip install jieba支持三种分词模式:精确模式:试图将句子最精确地切开,适合文本分析;jieba.cut(s)—精确模式,返回一个可迭代的数据类型全模式:把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧...原创 2019-12-03 16:39:45 · 1294 阅读 · 0 评论 -
Python实现Web开发框架【Flask】入门
首先创建一个python项目,就不同的python项目就好了,然后要安装好 Flask pip insatll Flask入门案例之间在项目中创建一个py文件写上代码 在 PyCharm 中右键运行就好了from flask import Flask# 创建Flask应用app = Flask(__name__)# 创建路由和函数 默认只能通过 GET 方式拿到数据@app...原创 2019-12-03 00:26:18 · 214 阅读 · 0 评论 -
网络爬虫(六)之爬虫框架【Scrapy】
项目目录介绍新创建一个目录,按住shift-右键-在此处打开命令窗口输入:scrapy startproject 项目名文件夹目录如下:|-你的项目名称|-scrapy.cfg |-__init__.py |-items.py |-middlewares.py |-pipelines.py |-settings.py |-spiders ...原创 2019-12-02 16:12:59 · 230 阅读 · 0 评论 -
网络爬虫(五)之解析网页【XPath】
案例:练习使用XPath"""案例:练习使用XPath"""from lxml import etree# 这是让我们联系的数据html_doc = """<div> <ul> <li class="item-0"><a href="www.baidu.com">baidu</a> ...原创 2019-12-02 14:02:25 · 269 阅读 · 0 评论 -
网络爬虫(四)之解析网页【BeautifulSoup】
使用BeautifulSoup首先一定要先按照 bs4 和 lxml这两个模块:pip install bs4pip install lxml解析器:Beautiful Soup支持Python标准库中的HTML解析器,还支持一些第三方的解析器,其中一个是 lxml另一个可供选择的解析器是纯Python实现的 html5lib , html5lib的解析方式与浏览器相同下表列出了...原创 2019-12-02 11:07:33 · 258 阅读 · 0 评论 -
网络爬虫(三)之解析网页【正则表达式-re模块】
正则匹配工具链接:https://pan.baidu.com/s/13Pw7zO6EWiR97kwgBnxAxA提取码:bdns打开后傻瓜式安装就好了比较重要的正则表达式使用 示例简单的就直接看上面的图了,这里就吧哪些比较难懂的说一下匹配邮箱:\w*@(163|qq)\.com\num 引用分组字符串<([A-Za-z]+)><([A-Za-z]+)&g...原创 2019-12-02 09:44:24 · 435 阅读 · 1 评论 -
网络爬虫(二)之动态网页爬取及使用selenium模块爬取
爬取Ajax数据案例(今日头条,某条新闻的评论信息保存成 txt 文档)"""使用requests模块爬取动态网页数据:今日头条,某条新闻的评论信息"""import requests# 这是爬取地址,返回ajax数据url = "https://www.toutiao.com/api/comment/list/?group_id=6749065854995939854&...原创 2019-12-01 23:15:06 · 684 阅读 · 0 评论 -
python 网络爬虫(一)
简介简单的爬取一下百度"""爬起百度网页"""import requests# 指定要爬取的路径url = "https://www.baidu.com/s"# 设置请求头,添加UA字段,模拟浏览器操作 # 如果不设置的话就会出现这样的请求,百度那边可以通过 User-Agent 识别的出来你是通过pythoon爬取网页数据的 # 这里有个坑,一定要自己打开浏览器找到属...原创 2019-12-01 21:10:50 · 285 阅读 · 0 评论 -
Python基础(注释,输出格式化,变量)
文章目录注释输出格式化变量注释# 我是单注释# 快捷键 Ctrl + /"""6个双引号是多行注释"""''''6 个单引号也是多行注释'''输出格式化name = "zs"age = 19sex = "女"salary = 2222.25number = 22# + 号拼接 变量必须是字符串类型print("sex" + sex)# 若要拼接int类型...原创 2019-08-21 10:15:24 · 103 阅读 · 0 评论