做一个简单的爬虫,简单的不能再简单
这里选取简书首页,爬取各个文章标题,由于不需要登录,所以无需Cookie,简书的网页源代码下载也无需设置headers
在简书的首页按 F12,查看页面元素Element,可以看到我们所需要爬取的内容夹在了 <h4 ....>..<a...>XXXXX</a> 之间
所以,pattern我们可以这么写:
pattern= re.compile('<h4 .*?><a.*?>(.*?)</a>', re.S)
完整代码:
# _*_ coding:utf-8 _*_
import urllib
import urllib2
import re
url='http://www.jianshu.com/'
request = urllib2.Request(url)
response=urllib2.urlopen(request)
# print response.read()
content = response.read()
pattern= re.compile('<h4 .*?><a.*?>(.*?)</a>', re.S)
items=re.findall(pattern,content)
for item in items:
print item
运行结果:
一个1号店前员工看京东收购
我是怎么教英语学英语的?吐血整理,全是干货,绝对受益
读懂这6条建议,你的大学才经得起挥霍。
先别急着结婚,想清楚这10个关键问题再决定
简书早报160622——《一个1号店前员工看京东收购》
想追求Ta?你大胆去追,但千万别求
我月收入三千,就不能喝星巴克的咖啡了?
和傻逼做朋友是不道德的
我希望这部国产片永远不在国内公映
征集贴:知世故而不世故|三句足矣
如何利用思维导图认识自己?
简书播客#第十九期 谁说爱就不会伤害,但凡感情未必不是有伤也有爱
给你15㎡的卧室,你会如何软装?
如何找到热爱的工作?
大学里应该知道的事情:爱情篇
给简书找BUG赢好礼16.06.16——简书android 1.11.0公测
教你如何玩转抓娃娃机攻略
你所爱的人,正是你内心深处的另一个自己。
《简书周刊076·自己动手,丰衣足食》上线
放弃吧,他只是一个不可能的人。