爬虫
文章平均质量分 65
---Crossover---
生命不息,coding不止
展开
-
第一章 创建爬虫常用命令
1.linux下安装virtualenv sudo apt-get install python-virtualenv pip install virtualenvwrapper 2.创建 py2和py3虚拟环境 virtualenv -p /user/bin/python3 py3 3.windows pip install virtualenv 4.virtualenv scrapy原创 2017-07-20 21:56:00 · 2234 阅读 · 1 评论 -
mongodb使用
1、mongodb中有一个export可以快速导出数据。2、也可以通过命令快速导出想要的字段 如:C:\Program Files (x86)\MongoDB\Server\3.0\bin> .\mongoexport -h 192.168.20.80 --port 6387 -u qxbdev -pFDsaf#m8gxg58#p qJKLD5DS865sghK -d iEnterpr...原创 2018-03-23 15:28:32 · 187 阅读 · 0 评论 -
爬虫与反爬虫
爬虫和反爬的对抗一直在进行着… 为了帮助更好的进行爬虫行为以及反爬, 今天就来介绍一下网页开发者常用的反爬手段。1. BAN IP :网页的运维人员通过分析日志发现最近某一个IP访问量特别特别大,某一段时间内访问了无数次的网页,则运维人员判断此种访问行为并非正常人的行为,于是直接在服务器上封杀了此人IP。解决方法:此种方法极其容易误伤其他正常用户,因为某一片区域的其他用户可能有着相同的IP,导致服...转载 2018-03-13 11:58:08 · 682 阅读 · 0 评论 -
第八章 爬虫中遇到的问题
1.出现 500错误很有可能是 headers有误或者没有添加。2.有的验证码是需要大小写判断的。3.百度联系人抓取 cookie的合并和不合并。4.微信企业名片抓取。anyrproxy找出js然后找到解密入口。5.加密的方式。base64或者个人乱写js加密。6.验证码。7.账号登陆。需要cookie。...原创 2017-09-05 10:25:32 · 437 阅读 · 0 评论 -
第七章 windows下部署scrapy 本地
一.windows下部署scrapy 本地 1.installs a. 安装客户端 (py3scrapy) C:\Users\liuyc>pip install scrapyd-client 主要用来打包爬虫项目 b. linux: 可以直接运行打包 (py3scrapy) C:\LinuxShare\ArticleSpider\ArticleSpider>scrapyd-deploy w原创 2017-08-27 15:29:16 · 998 阅读 · 0 评论 -
第六章 慕课网学习-scrapy的暂停与重启
1.scrapy crawl spider lagou -s JOBDIR= job_info/001 将暂停时信息保存到001 (-s是-set的意思) 1.不同的spider需要不同的目录 2.可以在 settings 和 custome_setting 中设置 JOBDIR= job_info/001 3.ctrl-c 后就会将暂停信息保存到001 要想重新开始则 再次运行 scrap原创 2017-08-25 23:51:28 · 3133 阅读 · 1 评论 -
第五章 慕课网学习-随机获取更换用户代理 agent
1.随机获取更换用户代理 agent class RandomUserAgentMiddleware(object): """ 随机获取更换用户代理 agent """ def __init__(self, crawler): super(RandomUserAgentMiddleware, self).__init__()原创 2017-08-25 23:46:54 · 377 阅读 · 0 评论 -
第四章 爬取西刺免费代理ip 并应用到scrapy
1.获取免费代理ip #!/usr/bin/env python # -*- coding: utf-8 -*- """ @author: liuyc @file: crawl_xici_ip.py @time: 2017/8/21 23:22 @describe: """ import requests from scrapy.selector import Selector from fak原创 2017-08-25 23:43:58 · 2227 阅读 · 0 评论 -
第三章 将 selenium集成到scrapy中
1.这里是jobbole的spider中的代码class JobboleSpider(scrapy.Spider): name = "jobbole" allowed_domains = ["python.jobbole.com"] start_urls = ['http://python.jobbole.com/all-posts/'] # 自定义设置原创 2017-08-25 23:38:06 · 1280 阅读 · 0 评论 -
第二章 selenium动态网页请求和模拟jobbole登陆
#!/usr/bin/env python # -*- coding: utf-8 -*- """ @author @file: selenium.py @time: 2017/8/25 8:09 @describe: """ from selenium import webdriver from scrapy.selector import Selector # 通过selenium启动原创 2017-08-25 23:29:55 · 462 阅读 · 0 评论 -
安装NodeJS
CentOS安装NodeJS在CentOS下安装NodeJS有以下几种方法。使用的CentOS版本为7.2。CentOS其他版本的NodeJS安装大同小异,也可以参看本文的方法。安装方法1——直接部署1.首先安装wgetyum install -y wget1如果已经安装了可以跳过该步2.下载nodejs最新的bin包可以在下载页面https://nodejs.org/en/download/中找...转载 2018-06-08 09:56:12 · 225 阅读 · 0 评论