Spider
陈起之(已退出IT行业)
感谢各位的点赞和支持,关于各位的疑问不能答复,我表示十分抱歉,奈何本人现已不是程序员,希望各位谅解。网站反爬虫的措施更新是非常快的,所以代码不能用很正常,但作为参考是非常有价值的,反爬虫的措施一般就那几种,多看多了解多尝试可以解决问题的。本人的梦想是成为一名作家,我已经在逐梦的路上了,不会再回来了,所以无法给各位解答我文章和毕设中疑问,非常抱歉。最后,祝各位成功。
展开
-
scrapy运行错误:Unhandled error in Deferred:
运行scrapy时发现的错误:ImportError: DLL load failed: 找不到指定的程序。Unhandled error in Deferred:2019-11-24 16:29:53 [twisted] CRITICAL: Unhandled error in Deferred:原因:缺少sqlite模块。安装方法:下载sqlite3.def、sqlite3.dll...原创 2019-11-24 20:18:06 · 1682 阅读 · 0 评论 -
Scrapy运行错误:Unknown command: crawl Use "scrapy" to see available commands
在终端使用cd进入指定的爬虫文件目录下运行:scrapy crawl xxx原创 2019-11-02 13:14:34 · 7253 阅读 · 0 评论 -
win10下安装Scrapy
win10下安装scrapy不能直接使用pip3 install Scrapy,需要先安装依赖库,Twisted和PyWin32的百度盘链接附在下面了。1.安装lxml:pip install lxml2.安装wheel这个好早之前安装的,具体忘了。3.安装Twisted首先需要下载Twisted,将它拷贝在Python的路径winPy/Scripts中,这个路径有的安装教程说随便放...原创 2019-10-29 00:59:37 · 243 阅读 · 0 评论 -
文件存储
示例代码:html = '''<div> <ul> <li class="item-0">first item</li> <li class="item-1"><a href="link2.html">second item</a></li> ...原创 2019-10-28 10:21:26 · 146 阅读 · 0 评论 -
bs4
bs4说明:bs4是一个强大的解析工具,它借助网页的结构和属性等特性来解析网页。bs4的代码非常简洁示例:from bs4 import BeautifulSoupsoup = BeautifulSoup(html, 'lxml')result = soup.tilte.string)说明:html是被解析的html,result是解析的结果,title是html的标题,strin...转载 2019-10-25 19:25:51 · 395 阅读 · 0 评论 -
Xpath
xpathxpath常用规则表达式描述nodename当前所有节点/从当前节点选取直接子孙节点//从当前节点选取子孙节点.选取当前节点…选取当前节点的父节点@选取属性xpath通配符通配符描述举例说明*匹配任何元素节点xpath(‘div*’)匹配div下所有子节点@*匹配任何属性节点...原创 2019-10-25 19:15:08 · 258 阅读 · 0 评论 -
网络爬虫(请求和响应)
URL:全称Uniform Resource Identifier,简单的可以认为是目标网站的链接。超文本传输协议:HTTP:全称Hyper Text Transfer Protocol,用于从网络传输超文本数据到本地浏览器的传送协议。HTTPS:即HTTP的加密版,传输安全性强。说明:1.HTTPS可以访问HTTP和HTTPS两种协议的网站。2.HTTPS维护比HTTP昂贵。HTT...原创 2019-10-19 10:24:36 · 311 阅读 · 0 评论 -
网络爬虫(requests基本使用)
GET请求类型:代码总览import requestsurl = "www.xxx.com"params = {}headers = {}timeout = 10r = requests.get(url,params=params,headers=headers,timeout=timeout)r.encoding = 'utf-8'theData = r.text...原创 2019-10-13 21:39:42 · 489 阅读 · 0 评论 -
User-Agent设置为随机
user_agent_list=[ 'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50', 'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Triden...原创 2019-10-12 21:40:47 · 368 阅读 · 0 评论 -
网络爬虫(urlib基本使用)
urlib说明:urlib是Python内置的HTTP请求的库urlib分为四个模块:request:请求模块,用于发送模拟请求。error:异常处理模块,帮助解决错误。parse:工具模块,提供url处理方法。robotparser:用于识别网站的robots.txt文件,根据robots.txt来判断该网站是否可爬。关于robots.txt文件,这个是网络爬虫的君子协议,当然很多...原创 2019-10-11 21:44:25 · 540 阅读 · 0 评论 -
智联招聘爬虫
import requestsfrom bs4 import BeautifulSoupimport pandas as pdfrom pandas import DataFrame, Seriesimport jsonimport timeimport Against_Reptilia_solveurl = "https://fe-api.zhaopin.com/c/i/sou"...原创 2019-10-02 15:33:34 · 1131 阅读 · 2 评论