自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(27)
  • 收藏
  • 关注

原创 Python 给列表里面的字典去重

平常给列表去重转换成set集合类型,然后再转回列表就行了1、今天遇到列表也想这样转换去重,发现用不了,报如下错误代码示例:tmp_data = [{'id': '000'}, {'id': '000'}]print(set(tmp_data))运行结果:2、解决办法def duplicate_remove(): data_list = [{'id': '...

2019-10-18 10:36:29 748

原创 chromedriver驱动下载

下载各个版本的chromedriver,包括linux系统、Mac系统和Windows系统下载地址一:http://chromedriver.storage.googleapis.com/index.html下载地址二:https://npm.taobao.org/mirrors/chromedriver/...

2019-09-24 16:25:24 272

原创 python使用execjs执行含有document、window等对象的js代码报错对象undefined

使用jsdom解决第一步 使用以下命令安装:npm i jsdom -g第二步 只需在对应js代码里最前面加上以下代码就能正常运行const jsdom = require("jsdom");const { JSDOM } = jsdom;const dom = new JSDOM(`<!DOCTYPE html><p>Hello world<...

2019-09-23 11:01:09 5342 2

原创 Mac版本安装Anaconda及使用教程

一、安装过程1、下载适用的安装包下载地址:Anaconda安装包下载这里下载的是 64-Bit Graphical Installer (653 MB) --64位图形安装程序(653 MB)2、开始安装双击安装,跟着步骤下一步就行了,期间选择安装位置,我选的是“仅为我安装”,点击安装,安装成功。3、安装成功,设置conda环境变量vim ~/.bash_profileexp...

2019-09-17 15:24:32 24284 2

原创 MySQL查询语句练习网站

零、MySQL基础语法学习--初学者:菜鸟教程:https://www.runoob.com/mysql/mysql-tutorial.html一、sql语句练习50题(Mysql版)来源:https://blog.csdn.net/fashion2014/article/details/78826299/#%23%23二、mysql练习网站(含答案)来源:http...

2019-09-02 11:20:56 6217 2

原创 破解58同城租房字体加密

最近写了好几个类似的反爬网站:大众点评 css反爬解析、汽车之家 css自定义字体反爬解析、猫眼电影票房排行榜(博客还没写)话不多说,破解58同城租房数字加密开始例子网站:https://bj.58.com/chaoyang/chuzu/一、加密数字解析发现问题页面展示正常的数字在源码中是乱码,如下图:通过先前的做法,破解字体加密,一般是先找到字体文件,下载到本...

2019-05-14 13:28:01 3202

原创 汽车之家 css自定义字体反爬解析

本文主要是通过哦爬取汽车之家论坛一些用户热门精华帖子,介绍利用前端页面自定义字体的方式来实现反爬的技术手段,来实践破解它。自定义字体:@font-face是CSS3中的一个模块,主要是实现将自定义的Web字体嵌入到指定网页中去。使用了其中一个网址来进行分析:https://club.autohome.com.cn/bbs/thread/d1751c7bd0539de0/79229668-...

2019-04-15 18:12:49 1657 2

原创 大众点评 css反爬解析

转载自大众点评还不会爬?跟着我,我教你。谈谈自己跟着写这个的感想吧。关于如何使用requests来爬取大众点评的数据。主要分为以下2步:发现数字出现的规则,css里面的规则,这一步很重要,没有找出规则,无法进行下一步 编码解析css,获取评论数、人均价格、口味、服务、环境评分1.找到css根据class值 “djaka” 对应的两个像素值,前面的是控制用哪个数字,...

2019-04-12 14:43:24 1312 1

原创 Python Json数据解析

概念:一种保存数据的格式作用:可以保存本地的json文件,也可以将json串进行传输,通常将json称为轻量级的传输方式json文件组成:{} 代表对象(字典)[] 代表列表: 代表键值对, 分隔两个部分json模块主要有loads(),load(),dumps(),dump()四个函数以下举例解释各个函数的用法:1.json.loads() :...

2019-04-11 14:40:49 136

转载 关于python中带下划线的变量和函数的意义

变量:1. 前带_的变量: 标明是一个私有变量, 只用于标明,外部类还是可以访问到这个变量2. 前带两个_ ,后带两个_ 的变量: 标明是内置变量,3. 大写加下划线的变量: 标明是不会发生改变的全局变量函数:1. 前带_的变量: 标明是一个私有函数, 只用于标明,2.前带两个_ ,后带两个_ 的函数: 标明是特殊函数Python 的代码...

2019-04-10 14:51:13 267

原创 准确爬取两个关键标签节点之间的内容

问题描述很开心,这是抓数据以来一直遇到的一个问题,虽然不能说是很完美,但是至少比每次用xpath中的position或者加各个判断来获取想要的数据为好。肯定都好奇是啥问题了问题描述:想要获取的数据在一个div中的各个p标签中,一段一段的,没有唯一id,就算有也只能获取一段话,其余的就不能准确获取了,上图展示: 解决思路正则匹配需要加标签的内容的首尾 用加个唯一id值得di...

2018-09-21 13:41:14 4870

原创 python爬取网易云音乐评论并制作词云

 这几天一直在想我还没爬取过的网站,以及会遇到的难点。每天使用网易云听歌,想着选首喜欢的歌去爬爬它的评论,我是用《小宇》这首歌做实例的。爬虫写的多了,自然也知道在源码里面找不到的数据,基本上都是动态加载出来的,这个时候我一般会打开网页右击检查(我一般使用的都是Google浏览器),选中它的NetWork,上图(不知道为什么粘贴下来的图片这样别扭)。选中XHR(感觉一直用这个还不知道是啥意...

2018-09-06 10:18:49 4287 5

原创 爬取链家租房数据

 使用requests+lxml结合爬取的链家租房信息数据,翻页我直接使用循环去访问的,链接翻页的改变就是相对应的'pg1'。主要使用xpath匹配了房源名称、房源大小、地点、价格等字段信息,获取各个字段之后连接了我的本地数据库,然后一条一条从插入数据库。数据库的连接得填好自己想要存进去的数据库账号。就这些了,有不懂的欢迎评论,下面附上代码:import requestsfro...

2018-08-30 14:21:59 837

转载 解决win64 Python下安装PIL出错

安装PIL时报错:C:\Users\admin&gt;pip install PILCollecting PIL  Could not find a version that satisfies the requirement PIL (from versions: )No matching distribution found for PIL1、软件版本python 3....

2018-08-30 10:13:11 1141

原创 scrapy模拟Chrome有界面的浏览器下载谷歌搜索的图片

今天公司要求爬取图片,个人觉得下载一个一个点太麻烦,量也比较大很多想写代码的初衷都是为了偷偷懒,省省时间和精力刚开始爬因为需要的图片都是经过放大的图片,源码里面需要的图片链接都是存在于js里面(很多信息还是得看源码分析,不能只在页面检查,因为很多信息都是动态加载出来的),好了,话不多说,附上我写的代码:(有啥问题的可在下面评论,希望能帮到有需要的人)# -*- coding: utf...

2018-07-10 19:20:19 689

原创 使用requests和Xpath抓取带标签的内容

今天抓取数据页面很多跳转,然后使用requests单独获取该链接抓取数据,但是需要的数据是要带标签的使用etree解析文本为HTML之后,连带用xpath匹配的数据都是Element类型需要将它转为需要的带标签的数据内容,如:  data = requests.get(url, headers=headers)response = etree.HTML(data.tex...

2018-07-04 14:08:30 3352

原创 python3.6导入urllib包中的unquote报错的解决办法

python 3.6版本是不需要安装:urllib包的,urllib和urllib2包集合成在一个包了使用unquote解码url中的中文,写法为:print(urllib.request.unquote(http://www.qianmu.org/%E6%B9%96%E9%A6%96%E5%A4%A7%E5%AD%A6))得出的结果为:...

2018-06-21 13:45:34 7352

原创 使用Scrapy爬取股票数据

直接上代码了,代码里面有注释,大家可以参考参考: # -*- coding: utf-8 -*-import scrapyimport timeimport jsonimport osclass GupiaoSpider(scrapy.Spider): name = 'gupiao' start_urls = ['http://stock.10jqka.com...

2017-11-06 21:39:32 1549

原创 用Scrapy爬取网站时总获取不到源代码的解决办法

运行scrapy crawl gupiao,报错如下:2017-11-06 16:28:19 [scrapy.utils.log] INFO: Scrapy 1.4.0 started (bot: gupiaospider)2017-11-06 16:28:19 [scrapy.utils.log] INFO: Overridden settings: {'BOT_NAME': '...

2017-11-06 16:35:21 5399 1

原创 Pycharm使用xlwt时,报错的解决方法

Traceback (most recent call last):  File "E:/Python-1704/python/day15/10-excel自动化办公/10-4-写入xls文件.py", line 30, in     "表2": [[11, 22, 33], [44, 55, 66], [77, 88, 99]]})  File "E:/Python-1704/pyt

2017-08-14 19:36:31 3798

原创 PyCharm装不了pywin32的解决办法

昨天刚装了win10,就需要装先前的第三方模块,先前是win7系统。今天使用pip工具装pywin32装不了,显示这样的错误C:\Users\yangyangyang>pip install pywin32Collecting pywin32  Could not find a version that satisfies the requirement pywin32 (from

2017-08-13 11:19:38 16947 4

原创 Python音乐播放器(tkinter)

写的不是很完整,不过简单的效果还是有的。对于音乐的播放,暂停,停止,和上一曲,下一曲功能都可以的,但是暂停是停止的效果。用tkinter写的界面,还引用了第三方模块pygame效果截图如下:注释不是很多,不过应该很容易理解,不是很理解的可以给我评论musicPlay.py 调用主程序代码importtkinterfrommusicListimpo

2017-08-13 11:01:19 8612 14

原创 Python-使用tkinter以及模仿栈的深度遍历

效果就是将一个目录中的目录或内容用tkinter的树状数据的界面显示出来,我采用了深度遍历,如果不是很了解的可以看我上一条博客,关于目录的三种遍历方式http://blog.csdn.net/qq_38105596/article/details/76402732效果图如:import tkinterfrom tkinter import ttkimport oswin

2017-08-06 11:22:21 344 2

原创 Python目录遍历的三种方式(递归、广度、深度)

三种遍历方式很类似,但是写之前要搞清它们各自编写的思想,要知道栈、队列的特点,以及递归的特点。广度遍历和深度遍历的区别要掌握1、递归遍历目录 import osdef getAllDirRE(path, sp = ""): # 得到当前目录下所有的文件 filesList = os.listdir(path) # print(fileList) ...

2017-07-30 19:40:20 3280

原创 从控制台输入三个数,输出较大的那个数(Python)

以下是自己写的代码,逻辑说不上清晰,但是也能得出最大的值print("请输入三个数:")num1 = int(input())num2 = int(input())num3 = int(input())if num1 > num2: if num1 > num3: print("num1 = ", num1) else: print("num3 = ", num3)else: if nu

2017-07-22 16:40:37 19317 2

原创 Python随机数的写法

# 随机数import random# 从序列的元素中随机挑选一个元素print(random.choice([1, 2, 3, 4, 5]))print(random.choice(range(5))) # range(5) == [0, 1, 2, 3, 4]print(random.randrange(2)) # randrange(2) == [0, 1]print(ra...

2017-07-20 08:39:57 694

原创 web中鼠标的点击事件

商品展示 body,img{ margin:0px; padding: 0px; } body{ margin: 100px auto 0px auto; background-image: url("./images/01big.jpg");

2017-05-28 18:37:14 1799 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除