qq_40709303-CSDN博客

原创 PySpider: unable to get local issuer certificate解决方式可能是这样的……

激动的打开了localhost:5000跟着视频教程一步一步的来，就出现了这样的问题unable to get local issuer certificate不会的我首先选择了搜索，然后出现了两种结果，第一种第二种，只需要在self.crawl中加……幸运的是遇到的问题用第二种解决方式就OK的，要是第一种，我可以直接去撕了……...

2020-10-19 21:22:07 415 1

原创 PySpider从下载到运行不了的解决方案

首先，学习到了PySpider这一板块，但是这一板块卡了我一个多星期，原因就是下载，下载PySpider历经千磨万难，终于下好了。这个问题解决方法：pip install --upgrade pippip install --upgrade setuptools这里需要谨慎，小心卸载了之后，安装不了，小编就出现了卸载之后，安装不了，重新又下载了一个pip。PySpider安装好了，但是出现SyntaxError: invalid syntax解决方法，将关键字 async替换成其

2020-10-18 21:33:29 477

原创求救爬虫的疑难杂症！！！requests.exceptions.MissingSchema: Invalid URL ‘xxx‘ No schema supplied.

#引入模块import requestsfrom urllib.parse import urlencodefrom requests.exceptions import ConnectionErrorfrom pyquery import PyQuery as pqimport pymongoimport syssys.setrecursionlimit(1000000)client = pymongo.MongoClient('localhost')db = client['weix

2020-10-11 16:44:40 10070 7

原创爬虫遇到此类情况RecursionError: maximum recursion depth exceeded while calling a Python object

爬虫的朋友一般分页或者回调的时候就经常会遇到这个错误，英文意思很明白，超过了Python的最大递归深度。解决方法很简单，在代码头部加入：import syssys.setrecursionlimit(1000000)这样修改Python最大递归，自定义即可...

2020-10-11 15:26:11 696

原创反爬虫抓取微信文章（前篇）

import requestsfrom urllib.parse import urlencodefrom requests.exceptions import ConnectionErrorfrom pyquery import PyQuery as pqbase_url = 'https://weixin.sogou.com/weixin?'headers = { 'Cookie': 'SUV=0050272B0E1788145AD0D1D0B5C42214; dt_ssuid=3

2020-10-11 15:20:14 240

原创爬虫第N天，模拟浏览器搜索

spider.pyimport refrom pydoc import docfrom selenium import webdriverfrom selenium.common.exceptions import TimeoutExceptionfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.support.ui import WebDriverWaitfrom selenium.webdriver..

2020-10-07 00:21:22 186

原创小试牛刀，学以致用，Requests+正则表达式爬取猫眼电影

第一步目标站点分析打开猫眼电影，查看源代码，比如我们准备爬取Top100的信息。查构造，比如title标签，图片用的img，主演star，评分分为两部分等等。流程框架①抓取单页内容，利用requests请求目标站点，得到单个网页HTML代码，返回结果。②正则表达式分析，根据HTML代码得到电影的名称，主演，航影视剧，评分，图片链接等信息。③保存至文件，通过文件的形式将结果保存，每一部电影一个结果一行Json字符串④开启循环及多线程，对多页内容便利，开启多线程提高抓取速度开始了，爬虫实

2020-09-28 21:50:40 495

原创 Python爬虫第九天，Selenium详解

Selenium基本使用from selenium import webdriverfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.common.keys import Keysfrom selenium.webdriver.support import expected_conditions as ECfrom selenium.webdriver.support.wait import WebDriverW

2020-09-26 14:12:41 507

原创 Selenium解析库Chrome failed to start: crashed.已解决

Selenium自动化测试工具，支持多种浏览器，爬虫中主要用来解决JavaScript渲染的问题。基本使用from selenium import webdriverfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.common.keys import Keysfrom selenium.webdriver.support import expected_conditions as ECfrom selen

2020-09-20 22:02:36 5943

原创 python爬虫第八天，PyQuery详解

PyQuery强大又灵活的网页解析库初始化字符串初始化html='''<div> <ul> <li class="item-0">first item</li> <li class="item-1"><a herf="link2.html">second item</li> <li class="item-0 active"><a herf="link

2020-09-20 16:12:16 198

原创 python爬虫第七天，BeautifulSoup库常用的解析方法

基本使用html="""<html><head><title>The Dormouse's story</title><body>The Dormouse's storyOnce upon a time there were three littlw sist

2020-09-19 22:27:18 176

原创 python爬虫返回的结果是中括号[],求解大神？

import requestsimport recontent = requests.get('https://book.douban.com/').textpattern = re.compile('<li.*?cover.*?href="(.*?)".*?title="(.*?)".*?more-meta.*?author">(.*?).*?year">(.*?).*?</li>', re.S)results =

2020-09-19 20:47:54 3605 2

原创爬虫第六天，正则表达式

正则表达式正则表达式是对字符串操作的一种逻辑公式re.matchre.match吃食从字符串的起始位置匹配一个模式，如果不是起始位置匹配成功的话，match()就返回nonere.match(pattern,string,flags)最常规的匹配import recontent = 'Hello 123 4567 World_This is a Regex Demo'result = re.match('^Hello\s\d\d\d\s\d{4}\s\w{10}.*Demo$',con

2020-09-19 20:42:45 131

原创爬虫学习第五天，Requests库的基础

Requests实例引入import requestsresponse = requests.get('https://www.baidu.com')print(type(response))print(response.status_code)print(type(response.text))print(response.text)print(response.cookies)各种请求方式import requestsrequests.post('http://httpbin.

2020-09-14 22:37:29 178

原创爬虫学习第四天，URL中的urlparse玉urlunparse

URLurlparseurllib.parse.urlparse(urlstring,scheme=’’,allow_fragments=True)from urllib.parse import urlparseresult = urlparse('http://www.baidu.com/index.html;uesr?id=5#comment')print(type(result),result)from urllib.parse import urlparseresult =

2020-09-13 22:48:37 221

原创爬虫学习第四条，urllib中的异常处理

异常处理URLErrorHTTPError遇到的问题错误码是1101出现这个本来以为是哪个地方错了，没想到原因是错误码有显示限制，因为默认的处理器处理了重定向(300以外号码)，并且100-299范围的号码指示成功，所以你只能看到400-599的错误号码。具体的解释请看请叫我汪海404 没有找到处理方式：丢弃403 禁止处理方式：丢弃……from urllib import request,errortry: response = request.ur

2020-09-13 22:46:32 107

原创爬虫学习第三天，urllib中的handler

Handler代理

2020-09-12 20:38:19 6472

原创由于目标计算机积极拒绝，无法连接(解决方法）

不容易最初跟着敲了这个ip‘http’:‘http://127.0.0.1:9743’,‘https’:‘https://127.0.0.1:9743’显示由于目标计算机积极拒绝，无法连接找了一下午的解决方法，没想到是因为自己主机上面没有9743这个端口，改成了8888，还是错了import urllib.requestproxy_handler = urllib.request.ProxyHandler({ 'http':'http://127.0.0.1:9743

2020-09-12 19:50:34 97108

原创爬虫第二天，urllib中的响应+Request

响应响应类型import urllib.requestresponse = urllib.request.urlopen('https://www.python.org')print(type(response))import urllib.requestresponse = urllib.request.urlopen('https://www.python.org')print(response.status)print(response.getheaders())print

2020-09-12 13:40:16 191

原创爬虫第一天，urllib库中的URLopen

爬虫基本流程1、发起请求requestsGET or importresponse①浏览器发送消息给该网址所在服务器HTTP Requests②服务器根据内容，做出相应处理，把消息回传给浏览器HTTP Response③浏览器收到Response信息后，进行解析2、解析内容3、获取相应内容4、保存数据你好！这是你第一次使用 Markdown编辑器所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章，了解一下Markdown的基本语法知识。新

2020-09-10 22:07:03 121