![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
且听风吟zyw
这个作者很懒,什么都没留下…
展开
-
Python爬虫(一)
python爬虫三流程:获取网页:给一个网址发送请求,会返回整个网址的数据。解析网页:从网页中提取你想要的数据。存储数据:就是把你提取到的数据存储起来。安装requests库:打开cmd窗口输入pip install requests使用requests库获取页面:import requestslink='https://blog.csdn.net/even160941'...转载 2019-05-10 19:22:52 · 195 阅读 · 0 评论 -
Pycharm的安装教程
在pycharm官网下载pycharm的安装包,根据自己电脑的操作系统进行选择,我安的是windows的professional。你也可以输入我下面的网址直接进入。选择windows系统的专业版,将它下载到本地。会弹出如下的界面选择安装目录,因为需要的内存较大,我放在我电脑的E盘。点击next,进入下图界面。我电脑是64位操作系统,所以选了64位;勾选Cr...原创 2019-04-27 00:09:42 · 510 阅读 · 0 评论 -
Python爬虫(二)
Request爬取静态网页获取相应内容:import requestsr=requests.get('https://blog.csdn.net/even160941')print("文本编码:",r.encoding) ##服务器文本编码print("响应状态吗:",r.status_code) ##响应的状态码,200代表访问成功print("字符串方式的响应体:",r....转载 2019-05-10 19:58:20 · 202 阅读 · 0 评论 -
Python爬虫(三)
正则表达式解析网页正则表达式就是对字符串进行操作的逻辑公式,相当于‘过滤’这个字符串。可以把网页源码变成字符串,再用正则表达式对其进行提取。正则表达式的几个方法:re.match方法:re.match代表从字符串起始进行匹配,无法匹配则为None。re.match的使用方法是:re.match(pattern,string,flags=0),pattern是正则表达式,string...转载 2019-05-10 23:18:49 · 119 阅读 · 0 评论 -
Python爬虫(四)
使用BeautifulSoup解析BeautifulSoup提供了从html中提取数据的功能在cmd中输入pip install bs4安装使用BeautifulSoup获取日期import requestsfrom bs4 import BeautifulSouplink='https://blog.csdn.net/even160941'headers={'User-Agent'...转载 2019-05-10 23:43:35 · 179 阅读 · 0 评论 -
Python爬虫(五)
lxml获取日期lxml使用xPath获取日期,xPath比较像路径import requestsfrom lxml import etreelink='https://blog.csdn.net/even160941/article/list/2?'headers={'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:6...转载 2019-05-17 21:46:45 · 107 阅读 · 0 评论