网络爬虫
qijingpei
BAT后端开发工程师。之前接触到的业务很杂,所以学习了很多方向的知识,目前专注于后端方向。
展开
-
Python网络爬虫中文字符变成\u
错误情况:Python网络爬虫获得的字符中,中文字符变成 “\u....”,注意注意这不是字符乱码问题!!!解决方法:我是将python2.7改成了python3,我是用的pycharm这个软件来敲代码的,要修改pycharm这个软件中设置中的python的版本成功后再次运行:原创 2017-03-30 15:51:13 · 4669 阅读 · 0 评论 -
ChromeDriver启动Chrome浏览器后,地址栏只显示data;
ChromeDriver启动Chrome浏览器后,地址栏只显示data;几种错误的原因及解决方法:查阅https://stackoverflow.com/questions/37159684/chrome-opens-with-data-with-selenium后进行补充:(1)查看是否少了http头部:比如要用http://localhost:3000 而不是localhost:...原创 2017-03-31 14:57:54 · 60946 阅读 · 20 评论 -
(未解决,只是提供一种思路)安装pyspider失败:Command "python setup.py egg_info"failed with error code 10 in.....
安装pyspider失败,pip install 后命令行窗口提示:Command "python setup.py egg_info"failed with error code 10 in.....百度了一下,发现pyspider要依赖于两个包:lxml 和 pycurl,其中lxml用pip安装一下就可以了,关键是pycurl,pip安装各种出错借鉴了这篇文章:htt原创 2017-04-03 11:59:39 · 10269 阅读 · 2 评论 -
TypeError: 'MongoClient' object is not callable——一个小错误,数据库的名字没用中括号
今天在用Python爬虫存储到MongoDB数据库的时候,老是报这个错误:TypeError: 'MongoClient' object is not callable仔细检查后,发现是我在声明数据库的时候,将中括号[ ]换成了圆括号()错误:修改完成后的代码:client = pymongo.MongoClient('localhost')db = client['原创 2017-04-20 17:21:11 · 4815 阅读 · 0 评论 -
Python 爬取蚂蜂窝旅游攻略 (+Scrapy框架+MySQL)
前言:使用python+scrapy框架爬取蚂蜂窝旅游攻略Git代码地址:https://github.com/qijingpei/mafengwo 获取代理IP地址的开源项目ProxyPool-master(地址应该是这个): https://github.com/Sylor-huang/ProxyPool-master运行步骤:1.配置好代码中连接mysql数据库的用户名和原创 2017-08-29 10:00:50 · 7246 阅读 · 18 评论