- 博客(4)
- 收藏
- 关注
原创 当当网畅销书排行爬虫(requests+BeautifulSoup)
今天要做的是一个爬取当当网畅销书排行的爬虫,之后想看排行直接运行程序就可以看到啦,没有多余的信息,是不是很给力! 在前两次的爬虫编写过程中,思想都是把整个HTML文档看做一个很长很长的字符串,通过编写特定的正则表达式匹配我们需要的内容。这对于一般的内容不多的爬取需求是可以满足,但是一旦我们需要爬取的内容多了起来,正则表达式的模式就会变得相当复杂,可读性也不够好。那么有没有另外一种方法呢?答案是肯
2017-07-14 11:35:32 3014
原创 爬取豆瓣影评TOP250Demo
在爬取了糗事百科的段子之后,我发现还挺好玩的。接着想还有什么是好玩的呢?因为平时也喜欢看电影,就进入豆瓣电影的官网,看到豆瓣电影TOP250的页面。哎,把这个榜单爬下来应该挺好玩的吧。话不多说,马上行动。 这里用的还是最基础的urllib库和re库,通过正则表达式匹配需要的内容,当然,之后还会有更加高级的方法,但是多写简单的可以提高对原理的认识。简单总结一下python爬虫爬取简单静态网页的一般
2017-07-13 13:42:51 896
原创 爬取糗事百科的段子Demo
1.我们要做什么? 爬取糗事百科的段子,并打印输出在屏幕上。 2.怎么做? (1)获取网页的内容:目的网址为https://www.qiushibaike.com/text/,该网址为糗事百科文本段子的部分。右键点击查看源代码,截图为: 获取网页内容的代码如下: url = 'https://www.qiushibaike.com/text/' user_agent = 'Moz
2017-07-11 00:07:40 441
原创 Python爬虫学习笔记之基础知识
1.什么是爬虫? 网络爬虫是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。 2.使用urllib爬取网页内容
2017-07-10 22:41:02 313
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人