![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
水野与小太郎
blockchain & tensorflow ...learner...
展开
-
scrapy爬虫_脚本模拟客户端访问(如点击、下滑等):scrapy and splash操作记录(记录用)
一、安装相关软件1、docker(ubuntu系统)2、scrapy(pip install)3、splash4、scrapy-splash(pip install)二、splash安装#简介:splash 能够执行用户使用Lua语言编写的自定义渲染脚本,这就使我们能够像PhantomJs 那样,将其作为一个浏览器自动化工具来使用docker pull scrapin...原创 2020-02-02 23:49:31 · 775 阅读 · 0 评论 -
虚拟机VBOX出错
NtCreateFile(\Device\VBoxDrvStub) failed: 0xc000000034STATUS_OBJECT_NAME_NOT_FOUND (0 retries)(rc=-101)Make sure the kernel module has been loaded successfully.cmd>> "sc.exe query vboxd...原创 2020-02-02 00:09:53 · 921 阅读 · 1 评论 -
爬取苏州\上海等地二手房房价
点击--> 前提知识scrapy一、创建项目cmd >> scrapystartprojectdouban## scrapystartprojectproject_namecmd >> cddouban/douban/spiderscmd >> scrapygenspiderdouban_spiderm...原创 2019-12-13 00:48:13 · 287 阅读 · 0 评论 -
Scrapy中报错"URLWarning: allowed_domains accepts only domains, not URLs."
现象源代码如下class HrSpider4Spider(CrawlSpider): """CrawlSpider类""" name = 'hr_spider4' allowed_domains = ['https://hr.tencent.com'] # 留意此处是一个完整的URL地址 start_urls = ["https://hr.tencent...转载 2019-12-12 22:02:47 · 1200 阅读 · 0 评论 -
scrapy 数据存储在 django model中
pip install scrapy-djangoitem,pywin32一、写好models文件二、配置scrapy -- settingsimport osimport sysimport djangofrom django.core.wsgi import get_wsgi_applicationsys.path.append(os.path.dirname(os.p...原创 2018-11-28 13:13:37 · 510 阅读 · 6 评论 -
Scrapy 爬虫伪装
Scrapy 设置代理IP | 设置随机USER-AGENT #防止对方发现我们设置代理IP:# middleware.pyclass my_proxy(object): def process_request(self,request,spider): #代理服务器的ip 与端口号 #注册一个 阿布云 ...原创 2018-11-27 12:45:01 · 948 阅读 · 0 评论 -
Scrapy 爬虫 --四个步骤--
课程设计要用到爬虫,稍微回顾下,Scrapy的爬虫四步走....只是简单的Scrapy,什么分布式爬虫啥的,感觉以后再说了....不谈了...1、创建项目cmd >> scrapy startproject douban## scrapy startproject project_name cmd >> cd douban/douban/spid...原创 2018-11-26 23:07:14 · 7768 阅读 · 0 评论 -
python爬虫入门(7) pyspider学习1
前提知识:简单的phantomjs,selenium,lxml的知识建新项目:cmd>>pyspider all chrome>>localhost://5000点击create====>然后出现一个页面save之后点击运行==========================》》点击follows你会看间只有一条信息,因为on_s原创 2017-10-29 16:27:25 · 381 阅读 · 0 评论 -
ImportError: No module named pkg_resources
我前一段时间 瞎搞 把 这个 setuptools-27.2.0-py2.7.egg 文件不知道搞到哪里去了,最后把这个文件复制到 X:\python\lib\site-packages\这个目录下就好了原创 2017-10-27 18:43:02 · 664 阅读 · 0 评论 -
python 爬虫入门(4) opener详解
urllib2.urlopen()函数不支持验证、cookie或者其它HTTP高级功能。要支持这些功能,必须使用build_opener()函数创建自定义Opener对象。复制代码代码如下:build_opener([handler1 [ handler2, ... ]])参数handler是Handler实例,常用的有HTTPBasicAuthHa转载 2017-08-07 15:28:29 · 9109 阅读 · 0 评论 -
python 爬虫入门(2) 爬虫基础知识 ; urllib 模块 ;urllib2 模块
一、爬虫基础知识这里转自 点击打开链接1.什么是爬虫 爬虫,即网络爬虫,大家可以理解为在网络上爬行的一直蜘蛛,互联网就比作一张大网,而爬虫便是在这张网上爬来爬去的蜘蛛咯,如果它遇到资源,那么它就会抓取下来。想抓取什么?这个由你来控制它咯。比如它在抓取一个网页,在这个网中他发现了一条道路,其实就是指向网页的超链接,那么它就可以爬到另一张网上来获取数据。这样,整个连在原创 2017-08-06 19:43:24 · 739 阅读 · 0 评论 -
python 爬虫入门(3) proxy详解 代理详解
0x00 前言大家对HTTP代理应该都非常熟悉,它在很多方面都有着极为广泛的应用。HTTP代理分为正向代理和反向代理两种,后者一般用于将防火墙后面的服务提供给用户访问或者进行负载均衡,典型的有Nginx、HAProxy等。本文所讨论的是正向代理。HTTP代理最常见的用途是用于网络共享、网络加速和网络限制突破等。此外,HTTP代理也常用于Web应用调试、Android/IOS APP转载 2017-08-07 11:09:32 · 11982 阅读 · 0 评论 -
关于pycharm的代码自动提示功能
File--->ssttings--->project : xxx ---> project interpreter 如下图:有时候上面的Project Interpreter是空!!原创 2017-08-06 14:32:31 · 13507 阅读 · 3 评论 -
python 爬虫实战
1. Python爬虫实战一之爬取糗事百科段子2. Python爬虫实战二之爬取百度贴吧帖子3. Python爬虫实战三之实现山东大学无线网络掉线自动重连4. Python爬虫实战四之抓取淘宝MM照片5. Python爬虫实战五之模拟登录淘宝并获取所有订单6. Python爬虫实战六之抓取爱问知识人问题并保存至数据库7. Python爬虫实战七之计算转载 2017-08-11 14:16:28 · 1370 阅读 · 0 评论 -
python u'\ ' 输出编码问题
原来:story.append([item[0].strip(),text.strip(),item[2].strip()])改成:story.append(item[0].strip())story.append(text.strip())story.append(item[2].strip())原创 2017-08-11 13:05:54 · 2551 阅读 · 2 评论 -
python爬虫入门(1) 基础知识 ; 正则表达式 Re 模块
一、python 基础知识复习我将列出与c++不同的一些基础知识List (c++中的数组,也可以说是vector因为他可以自由伸缩长度,Java和C#中也有list)构造 list = ["1", "2"]切片 (C++中的下标索引) poets = ["libai", "dufu", "luyou", "wangwei", "sushi"原创 2017-08-05 23:04:14 · 980 阅读 · 0 评论 -
python 爬虫入门(5) url异常处理 ; cookie使用 ;cookielib
一:url 异常我们在此之前已经了解到url异常一共包含两个异常:exception urllib2.URLError :包含 reason(姑且叫做reason方法吧)【reason用来显示错误理由】 ANDexception urllib2.HTTPError :包含 code 和 reason 【code显示H原创 2017-08-07 20:49:25 · 724 阅读 · 0 评论