大橙子学爬虫
文章平均质量分 51
爬虫技术相关文章
一个甜甜的大橙子
通信工程师
终身学习者
web开发,机器学习,深度学习爱好者。
展开
-
【Python爬虫】爬取大量数据网络超时的解决思路
问题在爬取大量数据的过程中,有时没有注意,会出现网络超时,结果也不知道爬到了哪里,重新爬一遍代价太大。解决思路目前提供解决思路,实践之后补充示例代码。思路一1.设置超时处理,超过时间返回异常。2.重试与超时结合。3.在超时范围内发现问题,及时处理。思路二1.将要下载的url形成列表文件;2.将已下载url记录形成列表文件;2.出现错误后比较前后两个文件内容,删除重复内...原创 2019-04-21 00:42:41 · 3785 阅读 · 0 评论 -
【Python爬虫】用urllib请求一个网页,响应的content中中文为16进制,如何转换为中文
问题:在学习Python爬虫一开始,利用python自带urllib模块请求一个网页时,响应的content中中文为16进制,如何转换为中文。环境:WIN10+Python3.6代码:#~ coding=utf-8#~ 使用Pyton内建模块 urllib 请求一个 URL 代码示例import sslfrom urllib.request import Requestfr...原创 2019-01-06 10:40:22 · 2651 阅读 · 7 评论 -
【Python爬虫】requests爬取新浪微博评论代码
环境:WIN10+Python3.6# 完整爬取微博评论程序,只需要修改微博id即可import requestsimport jsonimport re#爬取微博评论写入weibo_comment.txtdef get_comment(weibo_id, url, headers, number): count = 0 fp = open("weibo_comme...原创 2019-04-23 23:05:27 · 7761 阅读 · 21 评论 -
【Python爬虫】Beautifulsoup4中find_all函数
find_all()find_all( name , attrs , recursive , text , **kwargs )find_all() 方法搜索当前tag的所有tag子节点,并判断是否符合过滤器的条件.这里有几个例子:soup.find_all("title")#[<title>The Dormouse's story</title>]soup.f...转载 2019-04-25 21:54:29 · 20920 阅读 · 0 评论 -
【Python爬虫】爬取改版微博多页评论(方法可用)
目前控制下一页的字段是max_id要从第一页(没有max_id)开始请求,然后再返回的json数据中找到max_id,加到request的url中。原创 2019-05-05 22:53:58 · 2198 阅读 · 5 评论 -
【Python爬虫】用beautifulsoup4库遇到的错误及处理
在这里对使用beautifulsoup时遇到的问题进行汇总。问题:爬取网页时使用CSS选择器,代码如下,报错 NotImplementedError: Only the following pseudo-classes are implemented: nth-of-type.title = soup.select('.newsTable > tbody:nth-child(1) >...原创 2019-05-05 23:59:45 · 1837 阅读 · 0 评论 -
【Python爬虫】抓包工具Charles的安装及配置使用
Charles是一个网络抓包软件,功能类似于Burpsuite、fiddler。本文以图文方式介绍Charles的下载安装与配置使用。原创 2019-04-27 14:03:45 · 567 阅读 · 0 评论 -
【Python爬虫】爬取新浪微博评论看网友如何评价NBA季后赛火箭VS爵士G3
网友如何评论NBA季后赛火箭VS爵士G3爬取网友评论首先我们找到一篇关于比赛的微博生成词云图我们看看关键的几个人物:哈登,米切尔,塔克,徐坤(乱入?)哈登莫非今天又是常规操作30+?MVP?不不不,看看网友怎么说。是怎么像徐坤呢?球员投篮三分罚球前篮板后篮板总篮板助攻抢断盖帽失误犯规+/-得分哈登3-202-1314-160...原创 2019-04-22 00:49:10 · 806 阅读 · 1 评论