![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spider实例
该专栏存放,自己写的一些网站的数据采集实例,代码仅供参考本人比不会经常更新,所以会存在代码无法采集导数据的情况
穆洛玄
这个作者很懒,什么都没留下…
展开
-
笔趣阁小说优化版
#-*-coding:utf-8-*-# 笔趣阁import requestsfrom lxml import etreedef url_processing(url): # 网址处理函数 if requests.get(url).status_code > 200 and requests.get(url).status_code < 300: ...原创 2018-10-15 09:18:03 · 691 阅读 · 0 评论 -
Scrapy项目实战
Scrapy项目实战Scrapy是一个为了爬取网站数据、提取结构化数据而编写的爬虫应用框架。Scrapy内部实现了包括并发请求、免登录、URL去重等很多复杂操作,用户不需要明白Scrapy内部具体的爬取策略,只需要根据自己的需要,编写小部分的代码,就能抓取到所需要的数据此节我们学习下如何采用采用scrapy进行项目流程开发和配置一 项目准备工作1. 创建爬虫项目使用startproject命令创建项目scrapy startproject scrapy_proj #使用s原创 2020-05-29 11:34:10 · 524 阅读 · 0 评论 -
使用selenium操作PhantomJS的常用操作
采集淘宝商品数据的时候,主要用到了Selenium+PhantomJS。在这个过程中对淘宝的严厉反爬措施佩服至极,个人也得到了很多成长。虽然历经曲折,最终还是能正常运行自己的脚本采集数据。这里总结一下Selenium+PhantomJS使用中常用的操作。设置等待时间隐式等待,等同于time.sleep()driver.implicitly_wait(40)设置PhantomJS发...转载 2018-10-27 10:32:20 · 321 阅读 · 0 评论 -
建立自己的IP代理池[爬取西刺代理]
一:基本参数和导入的包import requestsimport reimport randomurl = 'http://www.xicidaili.com/nn'headers = {'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.3' '6 (KHT...原创 2018-08-01 16:23:48 · 867 阅读 · 0 评论 -
xpath 语法运用实例【爬取boos】
一:url的处理import urllib.requestfrom lxml import etreedef bo_url(url): headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3原创 2018-05-08 11:22:39 · 307 阅读 · 0 评论 -
selenium实例【唯品会爬取】
import jsonfrom selenium import webdriverfrom time import sleepfrom bs4 import BeautifulSoupimport urllib.parseclass weiSpider(object):def __init__(self,url,shang,start_page,end_page): self.url = ...原创 2018-04-28 23:38:40 · 1084 阅读 · 0 评论 -
笔趣阁的小说爬取
import urllib.requestfrom lxml import etreedef chu_url(url,shuhao): url = url + shuhao headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) C...原创 2018-04-27 12:00:56 · 740 阅读 · 0 评论