自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 收藏
  • 关注

原创 PySpider: unable to get local issuer certificate解决方式可能是这样的……

激动的打开了localhost:5000跟着视频教程一步一步的来,就出现了这样的问题unable to get local issuer certificate不会的我首先选择了搜索,然后出现了两种结果,第一种第二种,只需要在self.crawl中加……幸运的是遇到的问题用第二种解决方式就OK的,要是第一种,我可以直接去撕了……...

2020-10-19 21:22:07 332 1

原创 PySpider从下载到运行不了的解决方案

首先,学习到了PySpider这一板块,但是这一板块卡了我一个多星期,原因就是下载,下载PySpider历经千磨万难,终于下好了。这个问题解决方法:pip install --upgrade pippip install --upgrade setuptools这里需要谨慎,小心卸载了之后,安装不了,小编就出现了卸载之后,安装不了,重新又下载了一个pip。PySpider安装好了,但是出现SyntaxError: invalid syntax解决方法,将关键字 async替换成其

2020-10-18 21:33:29 395

原创 求救爬虫的疑难杂症!!!requests.exceptions.MissingSchema: Invalid URL ‘xxx‘ No schema supplied.

#引入模块import requestsfrom urllib.parse import urlencodefrom requests.exceptions import ConnectionErrorfrom pyquery import PyQuery as pqimport pymongoimport syssys.setrecursionlimit(1000000)client = pymongo.MongoClient('localhost')db = client['weix

2020-10-11 16:44:40 9698 7

原创 爬虫遇到此类情况RecursionError: maximum recursion depth exceeded while calling a Python object

爬虫的朋友一般分页或者回调的时候就经常会遇到这个错误,英文意思很明白,超过了Python的最大递归深度。解决方法很简单,在代码头部加入:import syssys.setrecursionlimit(1000000)这样修改Python最大递归,自定义即可...

2020-10-11 15:26:11 582

原创 反爬虫抓取微信文章(前篇)

import requestsfrom urllib.parse import urlencodefrom requests.exceptions import ConnectionErrorfrom pyquery import PyQuery as pqbase_url = 'https://weixin.sogou.com/weixin?'headers = { 'Cookie': 'SUV=0050272B0E1788145AD0D1D0B5C42214; dt_ssuid=3

2020-10-11 15:20:14 191

原创 爬虫第N天,模拟浏览器搜索

spider.pyimport refrom pydoc import docfrom selenium import webdriverfrom selenium.common.exceptions import TimeoutExceptionfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.support.ui import WebDriverWaitfrom selenium.webdriver..

2020-10-07 00:21:22 143

原创 小试牛刀,学以致用,Requests+正则表达式爬取猫眼电影

第一步目标站点分析打开猫眼电影,查看源代码,比如我们准备爬取Top100的信息。查构造,比如title标签,图片用的img,主演star,评分分为两部分等等。流程框架①抓取单页内容,利用requests请求目标站点,得到单个网页HTML代码,返回结果。②正则表达式分析,根据HTML代码得到电影的名称,主演,航影视剧,评分,图片链接等信息。③保存至文件,通过文件的形式将结果保存,每一部电影一个结果一行Json字符串④开启循环及多线程,对多页内容便利,开启多线程提高抓取速度开始了,爬虫实

2020-09-28 21:50:40 453

原创 Python爬虫第九天,Selenium详解

Selenium基本使用from selenium import webdriverfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.common.keys import Keysfrom selenium.webdriver.support import expected_conditions as ECfrom selenium.webdriver.support.wait import WebDriverW

2020-09-26 14:12:41 405

原创 Selenium解析库Chrome failed to start: crashed.已解决

Selenium自动化测试工具,支持多种浏览器,爬虫中主要用来解决JavaScript渲染的问题。基本使用from selenium import webdriverfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.common.keys import Keysfrom selenium.webdriver.support import expected_conditions as ECfrom selen

2020-09-20 22:02:36 5722

原创 python爬虫第八天,PyQuery详解

PyQuery强大又灵活的网页解析库初始化字符串初始化html='''<div> <ul> <li class="item-0">first item</li> <li class="item-1"><a herf="link2.html">second item</li> <li class="item-0 active"><a herf="link

2020-09-20 16:12:16 162

原创 python爬虫第七天,BeautifulSoup库常用的解析方法

基本使用html="""<html><head><title>The Dormouse's story</title><body><p class="title" name="dromouse"><b>The Dormouse's story</b></p><p class="story">Once upon a time there were three littlw sist

2020-09-19 22:27:18 133

原创 python爬虫返回的结果是中括号[],求解大神?

import requestsimport recontent = requests.get('https://book.douban.com/').textpattern = re.compile('<li.*?cover.*?href="(.*?)".*?title="(.*?)".*?more-meta.*?author">(.*?)</span>.*?year">(.*?)</span>.*?</li>', re.S)results =

2020-09-19 20:47:54 3331 2

原创 爬虫第六天,正则表达式

正则表达式正则表达式是对字符串操作的一种逻辑公式re.matchre.match吃食从字符串的起始位置匹配一个模式,如果不是起始位置匹配成功的话,match()就返回nonere.match(pattern,string,flags)最常规的匹配import recontent = 'Hello 123 4567 World_This is a Regex Demo'result = re.match('^Hello\s\d\d\d\s\d{4}\s\w{10}.*Demo$',con

2020-09-19 20:42:45 94

原创 爬虫学习第五天,Requests库的基础

Requests实例引入import requestsresponse = requests.get('https://www.baidu.com')print(type(response))print(response.status_code)print(type(response.text))print(response.text)print(response.cookies)各种请求方式import requestsrequests.post('http://httpbin.

2020-09-14 22:37:29 116

原创 爬虫学习第四天,URL中的urlparse玉urlunparse

URLurlparseurllib.parse.urlparse(urlstring,scheme=’’,allow_fragments=True)from urllib.parse import urlparseresult = urlparse('http://www.baidu.com/index.html;uesr?id=5#comment')print(type(result),result)from urllib.parse import urlparseresult =

2020-09-13 22:48:37 164

原创 爬虫学习第四条,urllib中的异常处理

异常处理URLErrorHTTPError遇到的问题错误码是1101出现这个本来以为是哪个地方错了,没想到原因是错误码有显示限制,因为默认的处理器处理了重定向(300以外号码),并且100-299范围的号码指示成功,所以你只能看到400-599的错误号码。具体的解释请看 请叫我汪海404 没有找到 处理方式:丢弃403 禁止 处理方式:丢弃……from urllib import request,errortry: response = request.ur

2020-09-13 22:46:32 75

原创 爬虫学习第三天,urllib中的handler

Handler代理

2020-09-12 20:38:19 4460

原创 由于目标计算机积极拒绝,无法连接(解决方法)

不容易最初跟着敲了这个ip‘http’:‘http://127.0.0.1:9743’,‘https’:‘https://127.0.0.1:9743’显示由于目标计算机积极拒绝,无法连接找了一下午的解决方法,没想到是因为自己主机上面没有9743这个端口,改成了8888,还是错了import urllib.requestproxy_handler = urllib.request.ProxyHandler({ 'http':'http://127.0.0.1:9743

2020-09-12 19:50:34 95151

原创 爬虫第二天,urllib中的响应+Request

响应响应类型import urllib.requestresponse = urllib.request.urlopen('https://www.python.org')print(type(response))import urllib.requestresponse = urllib.request.urlopen('https://www.python.org')print(response.status)print(response.getheaders())print

2020-09-12 13:40:16 137

原创 爬虫第一天,urllib库中的URLopen

爬虫基本流程1、发起请求requestsGET or importresponse①浏览器发送消息给该网址所在服务器HTTP Requests②服务器根据内容,做出相应处理,把消息回传给浏览器HTTP Response③浏览器收到Response信息后,进行解析2、解析内容3、获取相应内容4、保存数据你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章,了解一下Markdown的基本语法知识。新

2020-09-10 22:07:03 93

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除