爬虫
sunnychou0330
这个作者很懒,什么都没留下…
展开
-
爬虫遇到的问题
我在爬取网页过程遇到的问题: 对象可以归纳为4种: Tag , NavigableString , BeautifulSoup , Comment . tag.name获取的是标签名,比如<p>duie </p>返回的是psoup = bs('<div id="sinaTail" style="position: absolute;">jdiejdie</div>','lxml') >>> b原创 2017-08-01 19:17:05 · 1371 阅读 · 0 评论 -
python爬虫
最近在学习爬虫,爬取几个新闻网站,和大家分享一下学习心得,下方展示为爬取湖北应急办网站(http://yj.hubei.gov.cn/)根据需要爬取突发事件的内容。 首先我们要先分析网站的特点,明确自己爬取网站的信息,那些是你的目标,我爬取了新闻标题,日期,来源和新闻内容这几项。由于不同的浏览器版本不同,可能会存在微小的差别,我最开始使用的是360浏览器,然而发现并不能审查元素,由于本人是一个小菜鸟原创 2017-07-31 19:41:10 · 296 阅读 · 0 评论 -
爬虫编码问题
在获取网页时会遇到各种各样的编码问题,我们有不同的编码方式,但是在使用BeautifulSoup时,他有自动检测编码的功能,但是这样遍历一遍,知道编码也是一个很慢的过程。而且依然有可能出错。因此我们可以在实例化BeautifulSoup时,加上编码规则,这样就可避免错误。 首先我们先查看爬虫的页面的编码方式,使用下列代码即可获得url = 'http://www.baidu.com' >>> re原创 2017-08-01 20:56:35 · 420 阅读 · 0 评论