python在哪里写爬虫_第一次写python爬虫

花了4天终于把写完了把国内的几个漏洞平台爬完了,第一次写py,之前一直都在说学习,然后这周任务是把国内的漏洞信息爬取一下。花了1天学PY,剩下的1天一个。期间学习到了很多。总结如下:

27cf0159b00400db59397e80ce6732ef.png

9e79d63cb06401f4993590997c85d2b0.png

50d050e2ad689cb49c9986a246794c05.png

====================================================================

9ebfed82f917385f5207df7f249290b2.png

1dd456abe34f569a075bc03fa56bb2b8.png

=====================================================================================================

期间用了几个不错的类库:

urllib2 re chardet sys bs4 BeautifulSoup requests json

比如获取某个标签beautifulsoup,find/findAll/find_all

获取标签的内容XXX.contents[i]

还有AJAX的爬虫:requests.post()期间用了这个方法和别的来爬的时候需要POST,但是一直是GET,纠结了一个晚上,最后问了腾讯某小伙伴解决了问题

只要是data=xxx 都会使用urlencode编码,所以一直是GET

返回的是JSON,如果用字符串处理的话相当麻烦,问了长亭的朋友,推荐用了Json的类库(爬AJAX的时候最好设置个头)

result=requests.post(url,json=payload,headers=headers)

#print result.text

content=json.loads(result.text)

text=content['result']

=========================

apps=json.dumps(j)

app_json=json.loads(apps)

time=app_json['date']

用起来会方便了很多很多,如果需要搞PY爬虫的时候可以尝试下。因为也是刚学,代码只是实现了功能,代码的架构,没有加线程,速度也不是很好,后期可能会去优化。

如果你遇到什么问题,欢迎一起学习,可以发到我的邮箱:sevck#jdsec.com :)

###############

最后说一下,建议别在WINDOWS下写PY,建议LINUX

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值