
Python与爬虫
文章平均质量分 92
Python与爬虫
Quest_sec
这个作者很懒,什么都没留下…
展开
-
Pycharm的项目文件名是红色的原因及解决办法
今天在继续学习Python时,打开Pycharm后,发现有一个项目下的项目文件名是红色的,如下图:刚开始我以为是我升级 Pycharm导致的,但我并没有急着去解决,因为并不会影响我执行代码等。当我修改了一点代码后,我将它add并commit到Git后,才发现问题的原因:是我以前将Word设置成了Git的一个仓库,但是当时这些文件我并没有添加到Git里,所以会显示为红色。(这倒是挺好,可以提示我记得提交)解决方法一:如上我说的那样,add(add后会显示成绿色)并commit到Git(或者其他版本控制转载 2020-05-28 15:44:18 · 4084 阅读 · 0 评论 -
python报错ImportError: cannot import name 'etree' from 'lxml' (E:\python\python\lib\site-packages\lxml
lxml安装正常,import lxml正常,from lxml import etree 报错,查了很多资料,都没有解决问题,但仍然汇总于下:1、电脑中具有 lxml 同名文件,重命名即可,即使不在同一路径,也不允许?2、高版本lxml没有etree模块。有网友确定lxml4.2.5版本带有etree模块,且该版本lxml支持python3.7.4版本。安装命令:pip install l...原创 2020-05-02 13:29:09 · 17017 阅读 · 6 评论 -
解决重命名FileNotFoundError: [WinError 3] 系统找不到指定的路径: 'test.csv' -> 'hello/word.csv'
python使用os.rename()函数重命名文件/目录,出现如题报错,在查阅了很多资料后,终于发现了问题。。。将解决办法总结如下原创 2020-04-27 20:58:39 · 7028 阅读 · 0 评论 -
python数据插入连接MySQL数据库
(一) 安装驱动器mysql-connector(二)Python完整代码实例(三)常见报错类型与解决办法原创 2020-04-23 00:24:40 · 687 阅读 · 0 评论 -
Python爬虫写入excel数据内容不完整有空白行
excel上图:爬虫跑的结果,上图:那么问题出现了,每一组数据都确定是爬下来的,为什么单单这几行没有呢?百度没有看到任何相似问题,只好自己写了。观察发现,这几组数据是不完整的,少了一列,但是我们想要的结果并不是直接舍弃整组数据,而是有多少要多少,so去修改代码吧~...原创 2020-04-21 21:57:11 · 2714 阅读 · 1 评论 -
Xpath提取标签内href,text为空的解决办法
(1)提取标签之间的内容:规则/text() type(result)=result = html.xpath('//div[@class="hd"]/span/text()') (2)提取标签之间的超链接:'规则',不需要text()啦!!!result_url_list = html.xpath('//div[@class="info"]//a/@href')...原创 2020-04-21 14:04:58 · 3983 阅读 · 0 评论 -
python使用 xlwt,xlrd,xlutils库操作Excel教程
Python xlwt,xlrd语法xlrd和xlwt模块的小栗子 - https://www.cnblogs.com/xiao-apple36/p/9603499.htmlpython xlwt 设置单元格样式 ——https://www.jianshu.com/p/0f0cfffc949bxlwt.Borders()Example ——https://www.programcreek.c...原创 2020-04-20 20:04:02 · 1448 阅读 · 0 评论 -
Python操作Excel第三方库的对比
python操作Excel的模块提供的功能归纳起来有两种:一、用python读写Excel文件,实际上就是读写有格式的文本文件,操作excel文件和操作text、csv文件没有区别,Excel文件只是用来储存数据。二、除了操作数据,还可以调整Excel文件的表格宽度、字体颜色等。另外需要提到的是用COM调用Excel的API操作Excel文档也是可行的,相当麻烦基本和VBA没有区别。...原创 2020-04-20 16:59:39 · 3145 阅读 · 0 评论 -
MySQL入门简明教程 / SQL常用语句汇总
MySQL数据以表格的形式出现,许多的行和列组成一张表单,若干的表单组成database原创 2020-04-08 13:08:44 · 609 阅读 · 0 评论 -
python去掉\t\r\n空格换行符
想要去掉\t\r\n:使用函数 normalize-space()result = html.xpath('normalize-space(//tbody//a/text())')#返回list类型print(result)原创 2020-04-07 16:58:08 · 8022 阅读 · 1 评论 -
解决TypeError: Type 'list' cannot be serialized.
拿到HTML网页html = etree.HTML(content)编写规则html = etree.HTML(content)divs = html.xpath('//div[@class="rank"]//span[@class="span"]')print(type(divs))print(divs)divs返回一个列表,无法直接打印出数据:<class 'list...原创 2020-04-07 16:09:50 · 7462 阅读 · 7 评论 -
Python正则表达式提取网页数据(代码实例)
import rehtml = """ <div id="songs-list"> <h2 class="title">流行金曲</h2> <p class = "introduction">经典歌曲列表</p> <ul id="list" class="list-group"> ...原创 2020-04-04 22:46:29 · 5445 阅读 · 0 评论 -
KeyError: 'Spider not found:name为何找不到spider
四种可能:https://blog.csdn.net/weixin_41931602/article/details/81747393一种可能:https://blog.csdn.net/qxqxqzzz/article/details/47187289?depth_1-utm_source=distribute.pc_relevant.none-task&utm_source=dist...转载 2020-04-03 16:34:44 · 857 阅读 · 0 评论 -
XPath提取网页数据(附实例)
文章目录(一)XPath语法(二)用Python实践Python爬虫的两个思路:常用写法(三)一个案例【完整代码】(一)XPath语法借助Chrome浏览器的XPath插件来学习XPath语法,视频学习链接:网络爬虫与XPath(一)网络爬虫与XPath(二)笔记:目标标签、目标标签、目标属性、目标标签、父标签、父标签+父属性父标签+父属性+目标标签爷爷标签+父标签+…(规则...原创 2020-04-03 16:33:21 · 9720 阅读 · 0 评论 -
网页结构简介
“互联网中有50%以上的流量是爬虫”,那这么多的爬虫它们在互联网上做什么呢?答案当然是:孜孜不倦的爬取爬取网页信息。今天我们就来讲讲组成互联网的重要部分之一:HTML网页。文章目录一、起源与发展二、组成部分1.HTML标签2.数据3.CSS样式4.js转载 2020-04-02 16:39:51 · 2174 阅读 · 0 评论 -
Scrapy shell 命令行模式 使用教程
文章目录一、Scrapy shell一句话介绍二、Scrapy内置的Selector选择器三、Scrapy shell 实战演练...转载 2020-03-28 20:43:41 · 1168 阅读 · 0 评论 -
url含有汉字如何转换
有需求的话,使用http头查询到的URL...原创 2020-03-28 20:13:58 · 696 阅读 · 0 评论 -
scrapy输出的json文件中如何显示中文
scrapy用-o filename.json 输出时,会默认使用unicode编码,当内容为中文时,输出的json文件不便于查看,如下图:可以在setting.py文件中修改默认的输出编码方式,只需要在setting.py中增加如下语句(默认似乎是没有指定的,所以要增加,如果默认有,就直接修改)FEED_EXPORT_ENCODING = ‘utf-8’修改后输出如下:原文链接:ht...转载 2020-03-27 22:29:00 · 624 阅读 · 0 评论 -
Scrapy绕过反爬虫策略汇总
一、Scrapy无法返回爬取内容的几种可能原因1,ip封锁爬取2,xpath路径不对3,xpath路径出现font,tbody标签4,xpath路径不够明确5,robot协议6,请求头封锁二、网站如何识别爬虫?三、网站常见反爬虫策略?四、常见反反爬虫策略?五、实战演练原创 2020-03-27 19:35:32 · 2790 阅读 · 1 评论 -
Scrapy框架安装以及应用教程(代码实例)
win10安装Scrapy(1)有两种办法,一是用Anaconda安装,(2)二是用pip安装,pip无法直接安装scrapy框架,需要先安装很多依赖库。应用实例:新建一个项目...原创 2020-03-25 14:11:24 · 473 阅读 · 0 评论 -
Python爬虫四大选择器(正则、BS4、Xpath、CSS)介绍 / 代码实例
(图源以及参考:python爬虫系列 https://www.jianshu.com/p/4424c7f36143)爬虫的流程:请求网页 - 解析网页 - 提取网页数据 - 保存数据(1)请求网页(2)解析网页、提取数据的组合:bs4 + lxml 或者 lxml+xpath等(3)保存数据文章目录Json库lxml库requests 库正则表达式bs4xpathJson库bs4...原创 2020-03-22 08:36:22 · 2434 阅读 · 0 评论 -
爬虫实战遇到的问题及解决汇总 / 爬虫原理介绍
如何写一个爬虫程序爬取豆瓣内容?原创 2020-03-14 15:37:19 · 2795 阅读 · 0 评论 -
Python爬虫常用库有哪些 / pip与conda的区别
爬虫必备的一些第三方库汇总;以及conda与pip到底有什么不同;conda install XXX 和 pip install XXX 的区别原创 2020-03-14 10:47:47 · 1646 阅读 · 0 评论 -
廖雪峰Python教程梳理
安装python、安装编辑器、语法讲解、面向对象编程、面向对象高级编程、 错误、调试与测试、IO编程、进程和线程、正则表达式、常用内建模块、常用第三方模块 virtualenv、图形界面、网络编程、电子邮件、访问数据库、Web开发、异步IO原创 2020-02-23 11:25:31 · 3873 阅读 · 0 评论 -
PyCharm入门教程 / 环境配置
pycharm初始化1、添加 / 更换python解释器2、Create New ProjectLocation是我们存放工程的路径...原创 2020-01-26 21:08:38 · 1589 阅读 · 0 评论 -
《精通python网络爬虫》韦玮著——笔记整理
1.1 功能:可以自动化浏览网络中的信息,当然这些浏览需要按照我们制定的规则进行,这些规则称为网络爬虫算法。1.2 基于:使用python可以方便地编写出爬虫程序,进行互联网信息的自动化检索。1.3 实现过程:搜索引擎离不开爬虫,比如百度搜索引擎的爬虫叫做百度蜘蛛 。百度蜘蛛每天在海量的互联网信息中进行爬取,爬取优质信息并收录。 当用户在百度搜索引擎上检索对应关键词...原创 2018-03-18 14:44:38 · 1168 阅读 · 0 评论 -
Chrome / Firefox几个开发者必备插件
文章目录chrome查找页面内容Toggle JavaScriptXpath-helperJSONViewSurfingkeysAdBlockFirebugHackbarchrome查找页面内容F3 打开搜索框Toggle JavaScript这个插件的功能是方便地开启和关闭chrome的javascript功能。使用也很方便,点一下关闭,再点一下开启,对我们的起始豆瓣分类页关闭Java...原创 2017-10-29 15:21:17 · 1341 阅读 · 0 评论 -
Python学习路线 / 语法介绍
1.从IDLE启动python:IDLE是一个python shell,shell是外壳的意思,相当于windows系统的cmd窗口,即一个键入文本与程序交互的途径。 打开IDLE,界面上显示python版本。在“&gt;&gt;&gt;”该行代表可以正常进行工作了 注意python2. 与3. 有些不兼容,在语句上也有些差别,我用的是python3.6.2 切换上下一条语句,方向键(同...原创 2017-08-11 21:03:08 · 789 阅读 · 0 评论