技能-爬虫代码
冷夏LX
联系方式:微信:dlb940920,qq:1007705026 有事可以联系
展开
-
python初学(爬虫+web开发)
python初学近期提前进入研究生的生活,有点措手不及,最近的两个项目都涉及到python ,第一个是使用爬虫,第二个是可视化,想用python来实现后天,然后js+html来实现前端,所以对python学习了下。 大神勿喷python初学爬虫历程数据库python web总结与展望爬虫历程request/urlibrequest库封装的基本网络请求,http://cn.python-r原创 2017-07-10 22:13:43 · 3864 阅读 · 0 评论 -
爬虫爬京东搜索页,gank->ajax
这几天学习了一下爬虫。刚开始感觉学了点东西就上手,去爬京东。结果很显示,就爬了30条数据。怎么也搞不出来后30条,于是乎,直接上selenium,然后让鼠标拉到最底下,还是no。然后我看网上直接用无头浏览器,用试试PhantomJS,结果还是不行,然后各种百度,各种试,最后看了一篇blog,发现把下拉的时间间隔开来,试试,卧槽,我终于征服京东, 仅此来纪念我两天的gank 京东。# -*- cod原创 2017-07-01 17:21:27 · 804 阅读 · 0 评论 -
pyhon3.5 打开csv文件中文乱码问题
将编码格式改成gb18030就ok了f=open('url2table.csv', 'w',encoding="gb18030")csv_writer = csv.writer(f)td_th = re.compile('t[dh]')for row in table.findAll("tr"): cells = row.findAll(td_th) if len(cells)原创 2017-08-02 18:46:30 · 311 阅读 · 0 评论 -
百度爬虫
百度爬虫获取人名# coding: utf-8import requestsfrom lxml import etreefrom lxml.etree import HTMLParserproxies = { "http": "http://d84105117:@DLB940920@proxycn2.huawei.com:80原创 2018-09-05 15:50:26 · 606 阅读 · 0 评论