自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 当当网畅销书排行爬虫(requests+BeautifulSoup)

今天要做的是一个爬取当当网畅销书排行的爬虫,之后想看排行直接运行程序就可以看到啦,没有多余的信息,是不是很给力! 在前两次的爬虫编写过程中,思想都是把整个HTML文档看做一个很长很长的字符串,通过编写特定的正则表达式匹配我们需要的内容。这对于一般的内容不多的爬取需求是可以满足,但是一旦我们需要爬取的内容多了起来,正则表达式的模式就会变得相当复杂,可读性也不够好。那么有没有另外一种方法呢?答案是肯

2017-07-14 11:35:32 3014

原创 爬取豆瓣影评TOP250Demo

在爬取了糗事百科的段子之后,我发现还挺好玩的。接着想还有什么是好玩的呢?因为平时也喜欢看电影,就进入豆瓣电影的官网,看到豆瓣电影TOP250的页面。哎,把这个榜单爬下来应该挺好玩的吧。话不多说,马上行动。 这里用的还是最基础的urllib库和re库,通过正则表达式匹配需要的内容,当然,之后还会有更加高级的方法,但是多写简单的可以提高对原理的认识。简单总结一下python爬虫爬取简单静态网页的一般

2017-07-13 13:42:51 896

原创 爬取糗事百科的段子Demo

1.我们要做什么? 爬取糗事百科的段子,并打印输出在屏幕上。 2.怎么做? (1)获取网页的内容:目的网址为https://www.qiushibaike.com/text/,该网址为糗事百科文本段子的部分。右键点击查看源代码,截图为: 获取网页内容的代码如下: url = 'https://www.qiushibaike.com/text/' user_agent = 'Moz

2017-07-11 00:07:40 441

原创 Python爬虫学习笔记之基础知识

1.什么是爬虫? 网络爬虫是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。 2.使用urllib爬取网页内容

2017-07-10 22:41:02 313

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除