![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python
gz-郭小敏
这个作者很懒,什么都没留下…
展开
-
【python】爬取小说网站文章
背景:之前发了一篇收集素材的,现在来一篇收集素材来源的,因为代码较为简单,为了防止报错导致重新爬取,故这里把爬取数据列表和数据内容分开。代码(获取列表):import requests,timefrom bs4 import BeautifulSoupdef get_one_page(url): headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like.原创 2020-07-18 18:08:16 · 532 阅读 · 0 评论 -
【python】小说素材收集器
目录结构:代码:import reimport copyimport os# ================================ 变量 ============================================"""公共变量"""#文件夹目录path = "./doc"#得到文件夹下的所有文件名称files= os.listdir(path)#key(按下面的分组,对应的关键字去收集)keyList = [ ['眼',..原创 2020-07-17 15:03:16 · 756 阅读 · 0 评论 -
【Scrapy】Scrapy的items.py用法
之前写了pipelines.py的一些用法:【Scrapy】Scrapy的pipelines管道使用方法,主要是用来处理获取数据后做的操作。而这次介绍的items.py,它的作用主要是用来处理获取的的数据,做数据清洗用的,具体也很难一时讲清,先看代码。1.首先我们通过ItemLoader 获取到数据import syssys.path.append(r'E:\projects...原创 2019-05-16 14:16:35 · 3934 阅读 · 0 评论 -
【python】for循环获取index
需要获取index:list = ['a','b','c']for index ,v in enumerate(list): print(index) print(v)不需要获取index:for v in list: print(v)原创 2019-05-16 12:04:46 · 35224 阅读 · 2 评论 -
【Scrapy】Scrapy的pipelines管道使用方法
在讲解pipelines之前,我先举个例子,这样好了解爬取数据的具体过程:发送请求 获取到数据(从网站上爬取了数据) 数据清洗(处理数据) 存储(把数据存储起来)而现在,我介绍一下pipelines,它可以负责的就是第3和第4步的工作,专业述语就是管道。我们通过定义一个或多个class,可以用来处理我们传入的数据。代码目录:爬虫代码 mingyan_spider.py...原创 2019-04-29 15:35:27 · 7550 阅读 · 0 评论 -
【Scrapy】使用Scrapy框架遇到的坑
碍于我英文实在是烂,然后我学习新技术我一般优先找中文文档,而在网上的Scrapy框架的中文档好像都已经有点历史了,各种运行不上,然后好不容易找到相对较新的:http://www.scrapyd.cn/doc/下面则是我按着文档上教程遇到的坑:1.执行的是文件中的方法,方法的name为mingyan2,所以要到这个文件的文件目录中去使用2. 报错:ModuleNotFoundE...原创 2019-04-03 15:57:59 · 295 阅读 · 0 评论 -
【Scrapy】Scrapy框架安装错误
问题描述:win10, python3.7,64位在windows下,在dos中运行pip install Scrapy报错解决方案:1.打开https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted2.然后下载Twisted‑19.2.1‑cp37‑cp37m‑win_amd64.whl(cp后面是python版本,a...原创 2019-04-02 18:08:05 · 257 阅读 · 0 评论 -
win定制执行python脚本(记录csdn博客阅读量和评论量变化)
技术栈:ui框架:element-ui框架前端框架:vue-cli后端框架:koa前、后语言:javascript爬虫语言:python爬虫代码(定时执行)https://github.com/guosimin/python-spider/tree/master/csdnTest/csdn-test.py1.创建基本任务2.命名3.定义执行时间...原创 2019-04-02 15:13:55 · 161 阅读 · 0 评论 -
【python】自动生成一定数量的随机请求头header,对爬虫进行伪装
背景:通过User-Agent构建请求头headers能够将爬虫伪装,但是有的网站会去检查请求头,进而封掉ip地址。所以在每次提交网站请求的时候,使用随机请求头迷惑对方能更好的保护我们的爬虫。如我之前的例子,用了一个比较笨的方法:搜集各种User-Agent构建请求头,写一个随机函数,每次挑选一个User-Agent。然而人生苦短,聪明的程序员早已专门设计了一个库来生成header用于py...原创 2019-03-08 11:57:19 · 3372 阅读 · 0 评论 -
【python】爬取csdn博客相关数据
代码后续优化请关注:https://github.com/guosimin/python-spider注意:请限制使用爬虫频率,做一条有道德的爬虫一,首先要先准备一定量的代理ip并存入到数据库#!/usr/bin/env python3# -*- coding: utf-8 -*-import requests,threading,datetimefrom bs4 impor...原创 2019-03-12 15:27:58 · 471 阅读 · 0 评论 -
【python】如何把爬取到的代理ip写入到mongoDB
之前的博文是把代理ip写入到txt文件中,然而真实情景中,写入数据比较方便以后调用。还和之前一样,我先把我遇到的问题说一下:1.这里必须先安装 pymongo,选择以下其中一种即可,我用的是pip install --upgrade pymongo2.然后数据库更新后手动刷一下才看到新的数据# 安装pip install pymongo# 升级pip instal...原创 2019-03-08 10:10:04 · 765 阅读 · 0 评论 -
【python】如何获取一句话中的生词,小试‘结巴分词’
安装代码对 Python 2/3 均兼容全自动安装:easy_install jieba或者pip install jieba/pip3 install jieba 半自动安装:先下载http://pypi.python.org/pypi/jieba/,解压后运行python setup.py install 手动安装:将 jieba 目录放置于当前目录或者 site-p...原创 2019-03-07 16:43:50 · 277 阅读 · 0 评论 -
【python】获取批量代理ip
python纯小白,今日运行以下的代码出现的问题:1.requests 包需要安装,教程请参考https://jingyan.baidu.com/article/86f4a73ea7766e37d7526979.html2.有可能出现的问题:You are using pip version 9.0.1, however version 18.0 is available.3.运行代...原创 2019-03-07 14:39:18 · 766 阅读 · 0 评论 -
【python】解决用print打印函数返回值多一个None
根本原因:python定义函数时,一般都会有指定返回值,如果没有显式指定返回值,那么python就会默认返回值为None我们输入的代码如下:def test(): print('aaa')print(test())相当于执行了:def test(): print('aaa') return Noneprint(test())如果不...原创 2019-03-14 17:32:58 · 3066 阅读 · 0 评论 -
bs4.FeatureNotFound: Couldn't find a tree builder with the features you requested: lxml. Do you need
Python小白,报错bs4.FeatureNotFound: Couldn't find a tree builder with the features you requested: lxml. Do you need to install a parser library?1解决办法:pip3 install lxml原创 2019-03-07 11:51:53 · 815 阅读 · 0 评论 -
【python】local variable 'UserAgent' referenced before assignment
原始代码如下:import fake_useragentfrom fake_useragent import UserAgentdef getHeader(): UserAgent = UserAgent().random; headers = {'User-Agent': UserAgent} return headersif __name__ == '...原创 2019-03-08 17:44:02 · 406 阅读 · 0 评论