爬点什么好呢?最近老是浏览豆瓣上的帖子,那就爬取下豆瓣读书吧!
网络请求,返回值是html页面。
需要对返回回来的结果进行解析。使用Beautiful Soup来解析
参见(http://beautifulsoup.readthedocs.io/zh_CN/latest/)
说几个再爬虫中使用到的:
(1)find_all(tag,attributes,recursive,text,limit,keywords)
这个方法一般会大量使用,查找文档中含有该tag标签的所有信息
bsObj.find_all("li",{
"class":""})
就是查找文档中所有的li标签,并且该标签的class属性为“”
(2)获取某个标签属性的值,可以使用tag.get(“属性名称”)
a.get("href")
(3)获取标签中的文本,可以使用get_text() 方法
如以下这种: