python爬虫
文章平均质量分 86
Qton
这个作者很懒,什么都没留下…
展开
-
python爬虫(一) 正则表达式
先上实例吧如我想在字符串“dsaasdasdqwe33423weasdasdasds”中找出数字部分import reString='dsaasdasdqwe33423weasdasdasds'key=r'[0-9]+'f_a=re.compile(key)f_all=f_a.findall(String)for i in f_all: print(i)运行结果:原创 2017-04-17 20:29:50 · 754 阅读 · 0 评论 -
韶大talk 评论热度抽取
代码:import re , urllib.parse , urllib.request , http.cookiejar , base64 , binascii , rsa,time cj = http.cookiejar.LWPCookieJar()cookie_support = urllib.request.HTTPCookieProcessor(cj)opener = url原创 2017-05-07 21:44:08 · 2002 阅读 · 1 评论 -
python爬虫实战 爬取天极图片
学习爬虫个人的意见是直接实战效果会很好 不要等全学完requests ,正则表达式,BeautifulSoup等再来实际操作。其实很多实战我们并不会用到requests库,BeautifulSoup,正则表达式的全部知识。全部学懂记下来再去实战会很难。不如跟着我直接就该是写爬虫吧。遇到什么问题我们再一一解决。1 导入各种要用到的库,具体什么用法下面会讲 import reimpo原创 2017-05-04 10:14:21 · 1028 阅读 · 0 评论 -
编写python爬虫 获取中华英才网全网工资数据
做数据分析 数据挖掘,第一步是获取数据,在这里,我们要分析现今全国各地各个职业的工资情况。我们选择较为权威的‘中华英才网’,编写python爬虫获取该网站上的各个招聘信息说给出的工资,再取其行业工资的平均值,即为该行业目前的大概工资。1 以深圳为例如‘数据挖掘’这个职业在深圳查找的情况如上图。代码里我们去掉‘面议‘,工资3000-6000这样的我们取其中值4500写ex原创 2017-05-07 19:47:36 · 4402 阅读 · 1 评论 -
模拟登陆新浪微博
代码:import re , urllib.parse , urllib.request , http.cookiejar , base64 , binascii , rsa,time cj = http.cookiejar.LWPCookieJar()cookie_support = urllib.request.HTTPCookieProcessor(cj)opener = url原创 2017-05-07 20:31:25 · 736 阅读 · 0 评论