爬虫
liuzemeeting
这个作者很懒,什么都没留下…
展开
-
python爬取拉钩网数据
import requestsimport re#引用正则匹配from bs4 import BeautifulSoupheaders = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537原创 2018-01-31 00:01:34 · 421 阅读 · 0 评论 -
centos7.3 安装scrapy出错Could not find a version that satisfies the requirement Twisted>=13.1.0
1错误原因,通过pip install 安装scrapy是报错Could not find a version that satisfies the requirement Twisted>=13.1.0 (from Scrapy) (from versions: ) No matching distribution found for Twisted>=13.1.0 (from Scrapy)原创 2018-01-31 16:17:34 · 16937 阅读 · 0 评论 -
Python正则爬取全书网上万条数据
import requests import re import pymysql连接MySQL创建数据库conn = pymysql.connect( host=’localhost’, port=3306, user=’root’, db=’noveltest’, charset=’utf8’ ) cursor = conn.原创 2018-01-25 01:12:04 · 662 阅读 · 0 评论 -
scrapy 爬取腾讯招聘几千条数据
1.先通过 scrapy startproject mytencent 命令创建一个爬虫文件 2.再通过scrapy genspider tencent www.hr.tencent.com 创建一个蜘蛛 3.查看原网页分析数据,通过xpath选择要爬取的数据,然后再item.py文件中添加需要保存的数据列名positionName = scrapy.Field()#职位名称posi...原创 2018-02-02 01:10:26 · 591 阅读 · 0 评论 -
Python 京东爬虫抢手机小程序
1.需要插件chromedriver.exe,这个可以从网上直接下载 2.给大家附上代码`#京东抢手机脚本 from splinter.browser import Browser import time登录页def login(b): #登录京东 b.click_link_by_text(“你好,请登录”) time.sleep(3) b.cli原创 2018-02-03 00:27:35 · 9634 阅读 · 0 评论 -
scarpy中crawl Unknown command:报错解决办法
1.写scrapy遇到crawlUnknown command:错误: 2,问题出在scrapy.cfg文件丢失,所以在工程文件下放一个scrapy.cfg文件 3.注意把文件中的default和project改成自己的工程名 4.加完scrapy.cfg文件后,在运行之后就可饮料原创 2018-01-27 12:03:23 · 26008 阅读 · 4 评论