爬虫
Steven灬
不知不为过,不学就是错!
展开
-
Selenium自动化爬虫
Selenium爬取淘宝关键词搜索ipad页面信息,并保存到csv文件中:#!/usr/bin/python# -*- coding: UTF-8 -*-"""@author:Awen@file:spidertaobao.py@time:2020/04/20"""from selenium import webdriverfrom selenium.common.except...原创 2020-04-20 19:25:23 · 1027 阅读 · 0 评论 -
Python爬虫之爬取静态网页实践
通过上一篇的学习,对网页文件的结构有了初步的了解,下面实战爬取某网页的知识问答语料:1、使用库文件request:用于get请求threading:多线程bs4:网页解析re:正则表达式os:系统相关操作time:获取时间2、对网页文件进行解析打开谷歌浏览器,按F12进入开发者工具,并定位到自己想爬取的内容,如图3、获取网页请求的头文件,一般网上有Use...原创 2019-03-29 16:38:39 · 1735 阅读 · 0 评论 -
爬虫equests.exceptions.SSLError: HTTPSConnectionPool
由于爬取的网站证书过期,运行程序报错如下:equests.exceptions.SSLError: HTTPSConnectionPool 解决办法:将res = requests.get(url, headers=headers)改为:res = requests.get(url, headers=headers,verify=False)即可...原创 2019-04-04 11:56:14 · 3166 阅读 · 0 评论 -
爬虫beautifulsoup保留原文本页面格式
爬取某网站过程中,爬取的结果没有保留原文本页面格式,爬下来的内容都变成了一行 ……原网站页面:html页面如下: 爬出来的结果全部连在一起,成了一段,部分内容如下:二、民间借贷的分类民间借贷包括借和贷两个部分。传统的民间借贷以“借”为主,多以亲情、友情为纽带,主要表现为个人之间;而随着改革开放和市场经济的发展,企业与企业之间或企业与个...原创 2019-04-06 16:17:26 · 4870 阅读 · 4 评论 -
爬虫解析出来的网页中文部分都是乱码
编码问题起因:解析出来的网页中文部分都是乱码(运用的模块requests, BeautifulSoup)原因:requests出现编码问题(可能)解决办法:res = requests.get(url, headers=headers)soup = BeautifulSoup(res.text, 'lxml')改为res = requests.get(url, he...原创 2019-04-02 09:20:09 · 1899 阅读 · 1 评论 -
Python爬虫之爬取静态网页学习
所谓网络爬虫,通俗的讲,就是通过向我们需要的URL发出http请求,获取该URL对应的http报文主体内容,之后提取该报文主体中我们所需要的信息。所以,想要学习python爬虫,需要具备一些http的基础知识,熟悉http请求的基本过程。在本文中,首先会简单的介绍一下http请求的基本流程,之后介绍python的requests库,requests库可以方便地帮助我们完成http请求。因为本文介绍...转载 2019-03-29 13:43:43 · 1810 阅读 · 0 评论 -
用Python搭建一个简单的代理池
其实每次爬东西的时候,特怕IP被封,所以每次都要把时间延迟设置得长一点...这次用Python搭建一个简单的代理池。获取代理IP,然后验证其有效性。不过结果好像不是很理想,为什么西刺代理的高匿代理都能用???不是说免费代理不好使吗?真的是黑人问号脸.../ 01 / 代理获取01 网页分析通过点击西刺代理国内高匿代理,得到网页信息。获取IP地址、端口、是否匿...转载 2019-04-09 10:41:12 · 248 阅读 · 0 评论