Spider_陈起之（已退出IT行业）的博客-CSDN博客

Spider

关注

关注数：文章数：11 文章阅读量：12814 文章收藏量：13

作者: 陈起之（已退出IT行业）

感谢各位的点赞和支持，关于各位的疑问不能答复，我表示十分抱歉，奈何本人现已不是程序员，希望各位谅解。网站反爬虫的措施更新是非常快的，所以代码不能用很正常，但作为参考是非常有价值的，反爬虫的措施一般就那几种，多看多了解多尝试可以解决问题的。本人的梦想是成为一名作家，我已经在逐梦的路上了，不会再回来了，所以无法给各位解答我文章和毕设中疑问，非常抱歉。最后，祝各位成功。

展开

scrapy运行错误：Unhandled error in Deferred:

运行scrapy时发现的错误：ImportError: DLL load failed: 找不到指定的程序。Unhandled error in Deferred:2019-11-24 16:29:53 [twisted] CRITICAL: Unhandled error in Deferred:原因：缺少sqlite模块。安装方法：下载sqlite3.def、sqlite3.dll...

原创 2019-11-24 20:18:06 · 1682 阅读 · 0 评论
Scrapy运行错误：Unknown command: crawl Use "scrapy" to see available commands

在终端使用cd进入指定的爬虫文件目录下运行：scrapy crawl xxx

原创 2019-11-02 13:14:34 · 7253 阅读 · 0 评论
win10下安装Scrapy

win10下安装scrapy不能直接使用pip3 install Scrapy，需要先安装依赖库，Twisted和PyWin32的百度盘链接附在下面了。1.安装lxml：pip install lxml2.安装wheel这个好早之前安装的，具体忘了。3.安装Twisted首先需要下载Twisted，将它拷贝在Python的路径winPy/Scripts中，这个路径有的安装教程说随便放...

原创 2019-10-29 00:59:37 · 243 阅读 · 0 评论
文件存储

示例代码：html = '''<div> <ul> <li class="item-0">first item</li> <li class="item-1"><a href="link2.html">second item</a></li> ...

原创 2019-10-28 10:21:26 · 146 阅读 · 0 评论
bs4

bs4说明：bs4是一个强大的解析工具，它借助网页的结构和属性等特性来解析网页。bs4的代码非常简洁示例：from bs4 import BeautifulSoupsoup = BeautifulSoup(html, 'lxml')result = soup.tilte.string)说明：html是被解析的html，result是解析的结果，title是html的标题，strin...

转载 2019-10-25 19:25:51 · 395 阅读 · 0 评论
Xpath

xpathxpath常用规则表达式描述nodename当前所有节点/从当前节点选取直接子孙节点//从当前节点选取子孙节点.选取当前节点…选取当前节点的父节点@选取属性xpath通配符通配符描述举例说明*匹配任何元素节点xpath(‘div*’)匹配div下所有子节点@*匹配任何属性节点...

原创 2019-10-25 19:15:08 · 258 阅读 · 0 评论
网络爬虫（请求和响应）

URL：全称Uniform Resource Identifier，简单的可以认为是目标网站的链接。超文本传输协议：HTTP：全称Hyper Text Transfer Protocol，用于从网络传输超文本数据到本地浏览器的传送协议。HTTPS：即HTTP的加密版，传输安全性强。说明：1.HTTPS可以访问HTTP和HTTPS两种协议的网站。2.HTTPS维护比HTTP昂贵。HTT...

原创 2019-10-19 10:24:36 · 311 阅读 · 0 评论
网络爬虫（requests基本使用）

GET请求类型：代码总览import requestsurl = "www.xxx.com"params = {}headers = {}timeout = 10r = requests.get(url,params=params,headers=headers,timeout=timeout)r.encoding = 'utf-8'theData = r.text...

原创 2019-10-13 21:39:42 · 489 阅读 · 0 评论
User-Agent设置为随机

user_agent_list=[ 'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50', 'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Triden...

原创 2019-10-12 21:40:47 · 368 阅读 · 0 评论
网络爬虫（urlib基本使用）

urlib说明：urlib是Python内置的HTTP请求的库urlib分为四个模块：request：请求模块，用于发送模拟请求。error：异常处理模块，帮助解决错误。parse：工具模块，提供url处理方法。robotparser：用于识别网站的robots.txt文件，根据robots.txt来判断该网站是否可爬。关于robots.txt文件，这个是网络爬虫的君子协议，当然很多...

原创 2019-10-11 21:44:25 · 540 阅读 · 0 评论
智联招聘爬虫

import requestsfrom bs4 import BeautifulSoupimport pandas as pdfrom pandas import DataFrame, Seriesimport jsonimport timeimport Against_Reptilia_solveurl = "https://fe-api.zhaopin.com/c/i/sou"...

原创 2019-10-02 15:33:34 · 1131 阅读 · 2 评论

Spider

作者: 陈起之（已退出IT行业）

scrapy运行错误：Unhandled error in Deferred:

Scrapy运行错误：Unknown command: crawl Use "scrapy" to see available commands

win10下安装Scrapy

文件存储

bs4

Xpath

网络爬虫（请求和响应）

网络爬虫（requests基本使用）

User-Agent设置为随机

网络爬虫（urlib基本使用）

智联招聘爬虫