python数据爬取
文章平均质量分 79
anne_wang_swufe
这个作者很懒,什么都没留下…
展开
-
python数据爬取---简单页面的爬取
1、准备Requests和User Agentpython中能实现爬虫功能的库有若干个,而最简单最容易上手的,要数Requests库,它是一个常用的http请求库,首先用pip install requests 进行安装才能使用。User Agent一般翻译为用户代理,它的作用是向服务器自报家门。为什么要这个User Agent呢?因为我们要让爬虫假装是一个正常的用户在使用浏览器对目...原创 2019-07-03 18:07:04 · 10568 阅读 · 1 评论 -
python数据爬取---复杂一点的爬取
目录1、确定目标页面并进行分析2、Python中的正则表达式3、使用BeautifulSoup进行html解析4、对目标页面进行爬起并保存到本地1、确定目标页面并进行分析打开目标页面,右键鼠标,选择“检查”新的窗口显示的就是该网页的元素,发现我们想要的内容应该储存在“要闻列表里面”。展开下面的<ul>发现我们要的内容就在<h4>里...原创 2019-07-04 14:37:27 · 1604 阅读 · 2 评论 -
python数据爬取---爬取文本数据并进行特征提取
1、寻找目标网站并分析结构我们这次来爬‘百思不得其姐’的内涵段子。目标网址:http://www.budejie.com/text/1网站结构:每页默认20个段子,要翻页,第2页的网址是http://www.budejie.com/text/2,由此可以推断,该网站是在最后加上数字来区分页面,这样我们可以使用for循环来爬取所有页面的信息。我们可以把目标页面锁定在1-10页。...原创 2019-07-05 16:31:03 · 8409 阅读 · 0 评论