自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(24)
  • 收藏
  • 关注

原创 初级爬虫工程师需要具备哪些知识

爬虫工程师需要具备哪些知识一、必备部分(初级)1、熟悉多线程编程、网络编程、HTTP协议相关2、开发过完整爬虫项目(最好有全站爬虫经验,这个下面会说到)3、反爬相关,cookie、ip池、验证码等等4、熟练使用分布式5、了解企业级爬虫和个人爬虫的差异(企业级爬虫,首先在数据量上跟我们平时学习的时候爬虫,不是同一数量级,数据量大很多。其次,企业级爬虫代码一般部署到专门的爬虫服务器上,采取...

2019-03-11 10:52:52 8491

原创 Python发送请求,构造URL

构造浏览器请求url的方法(一)在分析完爬取数据之后,通过params方法构造请求。程序来源:崔庆才from pyquery import PyQuery as pqimport requestsdef getPage(page): url = 'https://m.weibo.cn/api/container/getIndex?'#在怎么来?分析Ajax请求 hd ...

2019-03-08 16:06:27 3538

原创 【无标题】

Python报错SyntaxError: (unicode error) 'utf-8' codec can't decode byte 0xbb in position 1: invalid start byte在python文件中加了中文字符,执行后出现如上报错:我们一般会在python文件第二行添加如下编码申明:# -*- coding:utf-8 -*-这个地方重点要注意就是,申明只是告诉python解释器按这个编码来解析,和文件本身编码并没有关系。上面出错的原因也是在这里。通过分析查看

2022-03-27 22:08:25 1171

转载 如何用硬盘做一个家庭存储中心?

如何用硬盘做一个家庭存储中心?其实没有那么难转载来源:http://www.sohu.com/a/258686386_100026927写这篇文文的初衷是因为悟空问答上回答过这个题目,发现“家庭存储中心”这个想法真的很好,浏览的朋友很多,再加上小编当时回答的方案比较模糊。所以在这里小编就把我家的“存储中心”组成方法写给大家,希望对您有用。这是原文:(感兴趣的朋友去我的问答下观看)1....

2019-07-20 00:06:45 5745

原创 Python3.7的安装以及报错处理方法

Python的安装以及报错处理方法一、下载下载路径:https://www.python.org/downloads/二、安装(以安装python3.7为例)在win下安装:1、创建新的安装目录:c:/python372、环境变量的配置(勾选自动配置)检查安装是否正确# 第一步::C:\Users\cuiljiang>pythonPython 3.7.0 (v3.7....

2019-06-09 23:57:05 5123

原创 抓取文档的保存

抓取文档的保存一、保存在txt二、保存在docx参考:https://blog.csdn.net/qq_22521211/article/details/81742887,https://blog.csdn.net/u011932355/article/details/51769803from docx import Documentdoc = Document()doc.add...

2019-05-26 01:21:15 280

转载 Rarfile解压不了的问题

Rarfile解压不了的问题来源:https://www.cnblogs.com/maindir/p/9040108.html最近用python调用rarfile进行解压rar压缩包时,报了如下错误:rarfile.RarCannotExec: Unrar not installed? (rarfile.UNRAR_TOOL='unrar')结合本人C#调用rar.exe的经验:ra...

2019-05-24 14:05:17 4160 2

原创 爬虫报错集

UnicodeEncodeError: ‘gbk’ codec can’t encode character ‘•’ in position 41: illegal multibyte sequence拉勾网数据抓取中,抓取一段数据后出现如下报错:\u200eUnicodeEncodeError: ‘gbk’ codec can’t encode character ‘•’ in posit...

2019-04-26 16:40:01 311

原创 TypeError: 'FirefoxWebElement' object is not iterable

使用selenium驱动Firefox抓取网页的时候出现如下报错:TypeError: ‘FirefoxWebElement’ object is not iterable分析后发现在抓取的时候语法出现问题(我需要抓取的内容有多个,但是没有加"s",故报错。from selenium import webdriverdriver = webdriver.Firefox()drive...

2019-04-16 22:33:58 1933

原创 Centos安装scrapy

Centos安装scrapy一、安装scrapy# pip3 install scrapy二、在安装的时候出现如下报错:Could not find a version that satisfies the requirement Twisted>=13.1.0 (from scrapy) (from versions: )解决方法:去官网下载Twisted。http://...

2019-03-26 10:20:36 1167

原创 CentOS 7环境下Pycharm安装流程

CentOS 7环境下Pycharm安装流程1、下载安装文件网址:https://www.jetbrains.com/pycharm/download/previous.html也可以使用命令行模式中输入命令:weget https://download.jetbrains.com/Python/pycharm-professional-2018.1.tar.gz2、解压下载的压缩包:...

2019-03-24 12:57:56 989

原创 Centos7安装python3.7.0

这里使用的时centos7-mini,centos系统本身默认安装有python2.x,可通过 python --V 或 python --version 查看系统自带的python版本有一些系统命令时需要用到python2,不能卸载1、安装依赖包1)首先安装gcc编译器,gcc有些系统版本已经默认安装,通过 gcc --version 查看,没安装的先安装gcc。[root@lo...

2019-03-23 09:03:48 166

原创 Centos7使用python3.7报错集

目录:1、tar解压包的时候出现错误 gzip: stdin: not in gzip format2、编译的时候出现:configure: error: no acceptable C compiler found in $PATH3、一、出现错误gzip: stdin: not in gzip format在Linux环境下,通过tar -zxvf 命令解压文件时遇到”gzip:...

2019-03-23 08:20:44 1039

转载 linux配置中文输入法

一~ubuntu系统安装中文输入法(centos系统请直接跳到下面二)安装输入法下面任选一种即可:1.IBus拼音:sudo apt-get install ibus-pinyin (sudo 以超级权限去执行下面操作,apt-get install 安装一个新软件包 ibus-pinyin为软件包名称)2.SCIM:sudo apt-get install scim-chinese...

2019-03-22 19:37:10 46759 2

转载 MySQL8.0的安装、配置、启动服务和登录及配置环境变量

目录2.1 在MySQL的官网上下载安装文件并配置MySQL2.2启动mysql服务:2.3登录MySQL数据库2.4关于配置Path环境变量:第二章:Windows10平台下MySQL的安装、配置、启动和登录及配置环境变量2.1 在MySQL的官网上下载安装文件并配置MySQL提示:在安装过程中,window防火墙会弹出是否允许更改硬件等提示,点击是。360安全卫士等会将MySQ...

2019-03-20 14:42:48 597

原创 TypeError: write() argument must be str, not dict

在写入文件的时候,出现:TypeError: write() argument must be str, not dict,报错。可以使用json,格式写入import requestsimport reimport jsondef get_one_page(url): head = { 'User-Agent': 'Mozilla/5.0 (Windows N...

2019-03-19 10:19:59 20042

原创 python爬取拉勾网出现KeyError: 'content'

python爬取拉勾网出现KeyError: ‘content’在爬取拉勾网的时候,出现如下报错,经分析解析路径没有出错,是cookie过期,没有响应数据,即不存在这个数据,才会出现如下报错:【解决办法】1、 设置条件语句:import requestsimport jsondef main(): for i in range(1,3): url = '...

2019-03-12 21:04:31 18748 14

原创 Python中定于全局变量得两种方法

Python中定于全局变量的两种方法1. 声明法该方法是直接在当前模块中进行全局变量定义声明,使用global的声明方式,再进行引用!HEAD = { 'user-agent': 'Mozilla/5.0' } def parse_html(): global OLD_URL response = requests.get(url, headers = HEAD) ...

2019-03-12 13:46:11 1020

原创 AttributeError: 'list' object has no attribute 'rfind'

AttributeError: ‘list’ object has no attribute ‘rfind’使用python的os模块分割url的时候报错如标题,经检查发现img_url导出来的为列表,故需更改为如下:img_url = img.xpath(’@data-original’)[0]def parse_page_list(url): head = { ...

2019-03-11 13:16:09 7875

原创 如何分析Ajax加载的内容

如何分析Ajax加载的内容前言:再58同城上抓取信息的时候,想要了解房源的人气值,在分析的时候遇到了困难分析请求后,没有发现需要的数据,待解决。。。...

2019-03-09 00:56:18 193

原创 斗鱼爬取用户信息和观看人数

爬取用户信息和观看人数摘要:此篇文章主要是对Ajax和json两个的练习。如何抓取异步加载的网站以及返回的json数据的提取。目标站点网站:https://www.douyu.com/g_LOL分析:打开网址,进行翻页的时候,发现头部的URL不变化,分析后台请求发现如下需要的数据都在如下图所示里面的response,切都是json格式。分析请求url,发现是采用get的方式请求,翻页...

2019-03-08 15:27:49 2152 1

原创 AttributeError: 'builtin_function_or_method' object has no attribute 'acquire'

今天再写写python多线程程序的时候出现了报错:File "C:/Py/python/demo.py", line 26, in run gLock.acquire()AttributeError: 'builtin_function_or_method' object has no attribute 'acquire'经过检查发现是再申明锁机制的时候漏了括号gMoney =...

2019-03-07 15:41:37 24472 5

原创 关于request爬取的时候出现乱码问题

学习爬虫的时候,经常会遇到这种问题,即显示的内容为乱码。以下为12306作为一个例子,执行代码如下import requestsresponse = requests.get('https://www.12306.cn')print(response.encoding)print(response.text)可以看到返回response编码类型为 ISO-8859-1,文本输出中...

2019-02-27 22:50:09 872

原创 Pycharm常用操作汇总

python之os模块

2019-01-17 23:10:22 1759

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除