2017年07月_Code A Better World

10月 07月 06月

原创当当网畅销书排行爬虫（requests+BeautifulSoup）

今天要做的是一个爬取当当网畅销书排行的爬虫，之后想看排行直接运行程序就可以看到啦，没有多余的信息，是不是很给力！在前两次的爬虫编写过程中，思想都是把整个HTML文档看做一个很长很长的字符串，通过编写特定的正则表达式匹配我们需要的内容。这对于一般的内容不多的爬取需求是可以满足，但是一旦我们需要爬取的内容多了起来，正则表达式的模式就会变得相当复杂，可读性也不够好。那么有没有另外一种方法呢？答案是肯

2017-07-14 11:35:32 3014

原创爬取豆瓣影评TOP250Demo

在爬取了糗事百科的段子之后，我发现还挺好玩的。接着想还有什么是好玩的呢？因为平时也喜欢看电影，就进入豆瓣电影的官网，看到豆瓣电影TOP250的页面。哎，把这个榜单爬下来应该挺好玩的吧。话不多说，马上行动。这里用的还是最基础的urllib库和re库，通过正则表达式匹配需要的内容，当然，之后还会有更加高级的方法，但是多写简单的可以提高对原理的认识。简单总结一下python爬虫爬取简单静态网页的一般

2017-07-13 13:42:51 896

原创爬取糗事百科的段子Demo

1.我们要做什么？爬取糗事百科的段子，并打印输出在屏幕上。 2.怎么做？（1）获取网页的内容：目的网址为https://www.qiushibaike.com/text/，该网址为糗事百科文本段子的部分。右键点击查看源代码，截图为：获取网页内容的代码如下： url = 'https://www.qiushibaike.com/text/' user_agent = 'Moz

2017-07-11 00:07:40 441

原创 Python爬虫学习笔记之基础知识

1.什么是爬虫？网络爬虫是一种按照一定的规则，自动的抓取万维网信息的程序或者脚本。 2.使用urllib爬取网页内容

2017-07-10 22:41:02 313

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 当当网畅销书排行爬虫（requests+BeautifulSoup）

原创 爬取豆瓣影评TOP250Demo

原创 爬取糗事百科的段子Demo

原创 Python爬虫学习笔记之基础知识

空空如也

空空如也

原创当当网畅销书排行爬虫（requests+BeautifulSoup）

原创爬取豆瓣影评TOP250Demo

原创爬取糗事百科的段子Demo