Python的那些事儿
文章平均质量分 63
专注于Python网络爬虫、数据处理、数据清洗、数据加工、数据展示、数据挖掘等
Python进阶者
人生苦短,我用Python
展开
-
分享一个Python网络爬虫数据采集利器
对于大部分粉丝来说,平时自己需要从某些网站上抓取数据,那么这里以某度为示例给大家演示。这里以【Python】作为关键词,然后找某度中进行搜索,我们的目标是抓取标题,如下图所示。这里我们手动拟定了名称、说明,还有对应的URL。接下来,我们点击保存,开启下一步,如下图所示:之后你还可以编辑每一个字段,如字段类型、默认值等等。然后提交后,可以看到几个预览数据。接下来你还可以对数据量进行一个调整,比方说抓取多少条数据,这里设置为100,如下图所示:然后提交,等待数据抓取完成。原创 2023-12-06 19:14:02 · 1817 阅读 · 0 评论 -
一篇文章教会你用Python爬取淘宝评论数据(写在记事本)
【一、项目简介】本文主要目标是采集淘宝的评价,找出客户所需要的功能。统计客户评价上面夸哪个功能多,比如防水,容量大,好看等等。【二、项目准备工作】1. 准备Pycharm,下载安装等,可以参考这篇文章:Python环境搭建—安利Python小白的Python和Pycharm安装详细教程2. 爬取商品地址,如下所示:https://detail.tmall.com/item.htm?spm=a230r.1.14.1.55a84b1721XG00&id=552918017887&ns=原创 2020-07-26 20:17:38 · 926 阅读 · 0 评论 -
手把手教你使用Python抓取QQ音乐数据(第一弹)
【一、项目目标】获取 QQ 音乐指定歌手单曲排行指定页数的歌曲的歌名、专辑名、播放链接。由浅入深,层层递进,非常适合刚入门的同学练手。【二、需要的库】主要涉及的库有:requests、json、openpyxl【三、项目实现】1.了解 QQ 音乐网站的 robots 协议只禁止播放列表,可以操作。2.进入 QQ 音乐主页 ht...原创 2020-04-25 13:43:25 · 3614 阅读 · 4 评论 -
一篇文章教会你理解和定义Scrapy爬虫框架中items.py文件
在前面几篇文章中我们已经学会了如何了编写Spider去获取网页上所有的文章链接及其对应的网页目标信息。在这一篇文章中,我们将主要介绍Scrapy中的Item。在介绍Item之前,我们需要知道明确一点,网络爬虫的主要目标就是需要从非结构化的数据源中提取出结构化的数据,在提取出结构化的数据之后,怎么将这些数据进行返回呢?最简单的一种方式就是将这些字段放到一个字典当中来,然后通过字典返回给Scra...原创 2020-03-07 19:34:19 · 1101 阅读 · 2 评论 -
手把手教你使用Python操控手机微信app(最新教程)
/1 前言/最近在做手机APP自动化测试,需要安appium,并配置环境变量,网上虽然有很多教程,但是随着版本的更新总有各种各样的坑,本文以亲身踏坑经历给大家详细介绍一下如何正确安装appium。/2 第一步:安装Adroid SDK/1、按照网上的教程,先下载Adroid SDK,网址为https://www.androiddevtools.cn/,如下图所示。...原创 2020-02-22 13:06:40 · 7792 阅读 · 6 评论 -
手把手教你进行Python虚拟环境配置
/1 前言/咱们今天就来说一下Python的虚拟环境,可能有的小伙伴会疑惑,Python的虚拟环境有什么用呢?接下来我们一起来探讨一下。/2 虚拟环境的作用/咱们今天就来说一下Python的虚拟环境,可能有的小伙伴会疑惑,Python的虚拟环境有什么用呢?接下来我们一起来探讨一下。我们先来举个例子,来说明为什么需要虚拟环境。我们在学习Python的时候,可能会学到越来越多的...原创 2020-02-02 10:33:44 · 571 阅读 · 2 评论 -
用Python模拟技巧带你实现自动抽屉登录&自动点赞
/1 前言/嘿,各位小伙伴们晚上好呀,今天小编又给大家带来干货内容啦,今天带来的是,如何自动登录抽屉,并且点赞! 原计划是不打算使用selenium的,但是因为要涉及点赞,所以免不了登录。但事实证明,我又被啪啪打脸了,抽屉的登录是真的难,各种参数把我干懵了。无赖之下,我还是捡起了selenium,难逃真香定律呐,哈哈哈。 好了,废话不多说,直接进入正题吧!/2 准备工作/ ...原创 2020-02-01 15:51:49 · 724 阅读 · 0 评论 -
利用Python进行破解哔哩哔哩登录
前言研究爬虫的各位小伙伴都知道,需要登录才能获取信息的网站,是比较难爬的,原因就是在于,现在各大网站为了反爬,都加入了图片验证码,滑动验证码之类的干扰,本篇就针对视频门户网站的滑动验证码进行讲解和破解关于破解滑动验证究竟是自己使用机器学习还是第三方服务讨论先说一下个人观点:本人作为一个爬虫老鸟,如果只是为了使用,非常建议使用第三方服务,为什么呢,来听我细细分析,...原创 2020-01-15 13:01:36 · 1778 阅读 · 4 评论 -
Python大佬手把手带你破解滑动验证码(上篇)
/1 前言/有爬虫经验的各位小伙伴都知道,正常我们需要登录才能获取信息的网站,是比较难爬的。原因就是在于,现在各大网站为了反爬,与爬虫机制斗智斗勇,一般的都加入了图片验证码、滑动验证码之类的干扰,让我们的爬虫半途折返。 本篇文章主要是针对哔哩哔哩的滑动验证码进行讲解和破解。/2方法探讨/ 写这个文章之前,我就在想一个问题,关于破解滑动验证究竟是使用机器学习还是第三方服...原创 2020-01-10 12:47:19 · 8283 阅读 · 5 评论 -
Python正则表达式的简单应用和示例演示
前一阵子小编给大家连续分享了十篇关于Python正则表达式基础的文章,感兴趣的小伙伴可以点击链接进去查看。今天小编给大家分享的是Python正则表达式的简单应用和示例演示,将前面学习的Python正则表达式做一个概括。 下面的栗子是用于提取高考日期,一般来说,我们填写日期都会写2018年6月7日,但是也有很多人会写成2018/6/7、2018-6-7、2018-06-07等,还有...原创 2018-10-31 20:09:22 · 10227 阅读 · 3 评论 -
Python正则表达式初识(十)附正则表达式总结
今天分享正则表达式最后一个特殊字符“d”,具体的教程如下。1、特殊字符“d”十分常用,其代表的意思是数字。代码演示如下图所示。 其中“+”的意思是表示连续,在这里代表的意思是连续的数字。但是输出只有“4”这个字符,原因是贪婪模式所致,在上一篇文章中也有提及。2、如果想要匹配“2004”,则需要加个特殊字符“?”,如下图所示。 此时是非贪婪模式,匹配从前往后进行,且匹...原创 2018-10-27 11:16:43 · 543 阅读 · 0 评论 -
Python正则表达式初识(九)
继续分享Python正则表达式的基础知识,今天给大家分享的特殊字符是[\u4E00-\u9FA5],这个特殊字符最好能够记下来,如果记不得的话通过百度也是可以一下子查到的。 该特殊字符是固定的写法,其代表的意思是汉字。换句话说,只要字符中是汉字,就可以通过该字符进行匹配,该特殊字符也是用中括号括起来的。具体的代码演示如下。1、原始字符串是“加油”,两个汉字,然后将匹配模式直接为[\...原创 2018-10-21 21:26:42 · 419 阅读 · 0 评论 -
Python正则表达式初识(八)
继续分享Python正则表达式的基础知识,今天给大家分享的特殊字符是“w”和“W”,具体的教程如下。 1、“w”代表的意思是该字符为任意字符,但是和特殊字符“.”的意思不同。“w”代表的字符主要包括26个大写字母A到Z,即[A-Z]、26个小写字母a到z,即[a-z]、10个阿拉伯数字0到9,即[0-9]和下划线“_”。总结起来就是,“w”代表的意思是[A-Za-z0-9_]中任意一个...原创 2018-10-18 14:31:33 · 1185 阅读 · 0 评论 -
Python正则表达式初识(七)
继续分享Python正则表达式的基础知识,今天给大家分享的特殊字符是“s”、“S”,具体的教程如下。 1、“s”代表的意思是匹配空格,匹配模式“加s油”代表的是字符“加”和“油”之间有空格的意思,如下图所示。 可以看到原始字符串中“加”和“油”之间有空格,与匹配条件相符合,所以匹配成功。2、为了加强理解,现在将原始字符串改为“加加油”,字符中间不为空格,保持匹配模式不变...原创 2018-10-14 10:02:28 · 651 阅读 · 0 评论 -
Python正则表达式初识(六)
继续分享Python正则表达式基础,今天给大家分享的正则表达式特殊符号是“[]”。中括号十分实用,其有特殊含义,其代表的意思是中括号中的字符只要满足其中任意一个就可以。其用法一共有三种,分别对其进行具体的代码演示,在最后进行总结,具体的教程如下。1、如下图所示,匹配模式为[abcd],在这里正则表达式代表的意思是字符串第一个字符是abcd四个字符中的任意一个,然后后面的字符是“cpeng123...原创 2018-10-09 23:17:41 · 376 阅读 · 0 评论 -
Python正则表达式初识(五)
正则表达式的内容很丰富,今天小编继续给大家分享Python正则表达式的基础知识。今天要给大家的讲的特殊字符是竖线“|”。竖线“|”实质上是一个或的关系。 1、直接上代码演示,比方说我们需要匹配一个字符串“dcpeng123”,匹配模式为 “(dcpeng|dcpeng123)”,记得匹配模式中要有括号,否则后面的group方法会报错。 如上图所示,匹配模式“(dcpeng|...原创 2018-10-05 09:53:26 · 391 阅读 · 0 评论 -
Python正则表达式初识(四)
今天继续给大家分享Python正则表达式基础知识,主要给大家介绍一下特殊字符“{}”的用法,具体的教程如下。 特殊字符“{}”实质上也是一个限定词的用法,其限定前面字符所出现的次数,其常用的模式有三种,分别是“{数字}”、“{数字,}”和“{数字1, 数字2}”。举个例子,如“{1}”、“{1,}”和“{1, 3}”。到这里可能大家还不是很清楚,下面依次通过实例来演示一下,加深对特殊字...原创 2018-10-01 19:05:25 · 390 阅读 · 0 评论 -
Python正则表达式初识(三)
前几天给大家分享了Python正则表达式基础(一)和Python正则表达式基础(二),感兴趣的小伙伴可以点击进去学习,今天继续给大家分享Python正则表达式基础。 1、正则表达式特殊字符“+”,其代表的意思“+”号前面的任意字符必须至少出现一次,才能匹配成功。如下图所示,如果没有加特殊字符“+”,则按照前面介绍的贪婪模式从右边进行匹配,输出的结果为“pp”。 2、现在将匹...原创 2018-09-28 09:50:44 · 2656 阅读 · 0 评论 -
Python正则表达式初识(二)
前几天给大家分享了Python正则表达式初识(一),介绍了正则表达式中的三个特殊字符“^”、“.”和“*”,感兴趣的伙伴可以戳进去看看,今天小编继续给大家分享Python正则表达式相关特殊字符知识点。 1、特殊字符“$”代表的意思是结尾字符。举个栗子,正则表达式“3$”,表示匹配以3为结尾的字符串。代码演示如下图所示。 正则表达式匹配模式“.*3$”代表以3结尾的任意字符的...原创 2018-09-23 14:10:22 · 794 阅读 · 0 评论 -
Python正则表达式初识(一)
首先跟大家简单唠叨两句为什么要学习正则表达式,为什么在网络爬虫的时候离不开正则表达式。正则表达式在处理字符串的时候扮演着非常重要的角色,在网络爬虫的时候也十分常用,大家可以把它学的简单一些,但是不能不学。 尽管网络爬虫相关库给我们提供了丰富的库如css、bs4、lxml等等,让我们可以通过选择器去匹配字符串,但是在HTML中数据往往存在标签之中。通过选择器确实可以匹配到标签的内容,但是...原创 2018-09-21 15:20:03 · 1096 阅读 · 0 评论 -
手把手教你在VMware虚拟机中安装Ubuntu14.04系统
在VMware中创建完虚拟机之后,一般需要给虚拟机安装系统,比较受青睐的系统有Ubuntu和Centos,关于Centos系统的安装之前已经写过了,感兴趣的小伙伴可以戳这篇文章:靠谱的centos7.4系统安装教程,在虚拟机上安装Centos6.7操作系统。前几天给大家分享了在VMware中如何创建虚拟机,今天给大家分享一下如何在虚拟机中安装Ubuntu14.04桌面版系统,其他的系统版本也可以参...原创 2018-06-13 15:29:25 · 14912 阅读 · 5 评论 -
企业级开发大佬告诉你学习Python需要用什么开发工具
最近看到学习群里面的小伙伴,对于Python IDE都比较纠结,希望找到一些适合自己的、Python开发工具。小编向企业级大佬请教之后,给大家分享几款Python开发工具,供正在纠结用哪种开发工具的小伙伴们参考~对于学习Python的小伙伴,小编首推的Pycharm。首先,PyCharm用于一般IDE具备的功能,比如, 调试、语法高亮、Project管理、代码跳转、智能提示、自动完成、...原创 2019-02-27 12:12:42 · 2409 阅读 · 0 评论 -
Python程序员爬取《万物理论》10万影评,带你解读霍金的有趣故事
相信昨天的Breaking news(爆搜)是本世纪伟大的物理学家霍金辞世,享年76岁。小伙伴肯定知道霍金的故事肯定很励志,他是智商肯定不是常人能及的,因为他的引领,不断的拓宽了人类对宇宙的认识。作为一名普通吃瓜群众,《时间简史》、《果壳中的宇宙》这些高大上的天书能知道名字就已经十分不错了,如果想看的话,要做好听凉凉的心里准备。不过别慌,看书看不懂,看电影总能更好接受一些吧,关于霍...原创 2019-03-07 16:43:26 · 487 阅读 · 0 评论 -
王者程序员整理的Python网络爬虫和web的系统学习路线图
最近很多小伙伴找小编咨询,如何系统的学习Python?相信这个论题应该困扰了许多想学习Python的人,今天小编给大家讲一下一个零根底的小白,应该如何体系化的学习Python编程语言,在学习的道路上少浪费时间去摸索,少走弯路。相信小伙伴们都知道,目前Python主打的两个方向:其一是网络爬虫,其二是web开发。如果将这两者完美的结合起来,可以说是天作之合。如果你前端和后端都搞得定,那么恭喜...原创 2019-03-05 14:16:14 · 613 阅读 · 4 评论 -
Python大佬用20行代码带你打造一个微信聊天机器人(附代码)
近来,打开微信群发消息,就会秒收到一些活跃分子的回复,有的时候感觉对方回答很在理,但是有的时候发现对方的回答其实是驴唇不对马嘴,仔细深究发现,原来对方是机器人。今天,小编就带大家用20行代码,带你一起打造一个微信聊天机器人,让你的微信群一直嗨不停~~首先我们需要安装一个微信相关的第三方库,itchat,在Windows上通过命令:pip install itchat,就可以将其安装。其二,...原创 2019-03-02 13:31:37 · 2097 阅读 · 5 评论 -
企业级Python开发大佬利用网络爬虫技术实现自动发送天气预告邮件
前天小编带大家利用Python网络爬虫采集了天气网的实时信息,今天小编带大家更进一步,将采集到的天气信息直接发送到邮箱,带大家一起嗨~~拓展来说,这个功能放在企业级角度来看,只要我们拥有客户的邮箱,之后建立邮箱数据库,然后我们就可以通过网络爬虫将采集到的信息发送给我们的目标用户,而且每天都可以实现定时发送。对于天气信息,我们采集的目标网站是搜狐天气网,信息内容如下图所示:搜狐天气网...原创 2019-03-02 13:30:22 · 2647 阅读 · 0 评论 -
Python环境搭建—安利Python小白的Python和Pycharm安装详细教程
人生苦短,我用Python。众所周知,Python目前越来越火,学习Python的小伙伴也越来越多。最近看到群里的小伙伴经常碰到不会安装Python或者不知道去哪下载Python安装包等系列问题,为了方便大家学习Python,小编整理了一套Python和Pycharm安装详细教程,只要大家按照这个步骤来,就可以轻松的搞定Python和Pycharm的安装了。Python具有跨平台性,它几乎可以...原创 2019-03-01 12:49:58 · 3395 阅读 · 2 评论 -
利用Python网络爬虫采集天气网的实时信息—BeautifulSoup选择器
相信小伙伴们都知道今冬以来范围最广、持续时间最长、影响最重的一场低温雨雪冰冻天气过程正在进行中。预计,今天安徽、江苏、浙江、湖北、湖南等地有暴雪,局地大暴雪,新增积雪深度4~8厘米,局地可达10~20厘米。此外,贵州中东部、湖南中北部、湖北东南部、江西西北部有冻雨。言归正传,天气无时无刻都在陪伴着我们,今天小编带大家利用Python网络爬虫来实现天气情况的实时采集。此次的目标网站是绿色呼吸...原创 2019-03-01 12:48:10 · 868 阅读 · 2 评论 -
Python大佬用词云可视化带你分析海贼王、火影和死神三大经典动漫
对于动漫爱好者来说,海贼王、火影、死神三大动漫神作你肯定肯定不陌生了。小编身边很多的同事仍然深爱着这些经典神作,可见“中毒”至深。今天小编利用Python大法带大家分析一下这些神作,看看这些神作到底在讲些神马。人生苦短,我用Python。小编利用Python网络爬虫爬取了豆瓣网,将网站上关于这三部动漫的评论全部抓取下来,之后通过Python的第三方库jieba分词进行词频统计和分析,最后通...原创 2019-03-01 12:47:13 · 1374 阅读 · 0 评论 -
Python网络爬虫四大选择器(正则表达式、BS4、Xpath、CSS)总结
前几天小编连续写了四篇关于Python选择器的文章,分别用正则表达式、BeautifulSoup、Xpath、CSS选择器分别抓取京东网的商品信息。今天小编来给大家总结一下这四个选择器,让大家更加深刻的理解和熟悉Python选择器。一、正则表达式正则表达式为我们提供了抓取数据的快捷方式。虽然该正则表达式更容易适应未来变化,但又存在难以构造、可读性差的问题。当在爬京东网的时候,正则表达式如下...原创 2019-03-01 12:45:32 · 1208 阅读 · 0 评论 -
如何利用CSS选择器抓取京东网商品信息
前几天小编分别利用Python正则表达式、BeautifulSoup、Xpath分别爬取了京东网商品信息,今天小编利用CSS选择器来为大家展示一下如何实现京东商品信息的精准匹配~~CSS选择器目前,除了官方文档之外,市面上及网络详细介绍BeautifulSoup使用的技术书籍和博客软文并不多,而在这仅有的资料中介绍CSS选择器的少之又少。在网络爬虫的页面解析中,CCS选择器实际上是一把...原创 2019-02-28 20:28:33 · 270 阅读 · 0 评论 -
如何利用Xpath选择器抓取京东网商品信息
前几小编分别利用Python正则表达式和BeautifulSoup爬取了京东网商品信息,今天小编利用Xpath来为大家演示一下如何实现京东商品信息的精准匹配~~HTML文件其实就是由一组尖括号构成的标签组织起来的,每一对尖括号形式一个标签,标签之间存在上下关系,形成标签树;XPath 使用路径表达式在 XML 文档中选取节点。节点是通过沿着路径或者 step 来选取的。京东网狗粮商...原创 2019-02-28 20:27:07 · 3265 阅读 · 0 评论 -
如何利用BeautifulSoup抓取京东网商品信息
昨天小编利用Python正则表达式爬取了京东网商品信息,看过代码的小伙伴们基本上都坐不住了,辣么多的规则和辣么长的代码,悲伤辣么大,实在是受不鸟了。不过小伙伴们不用担心,今天小编利用美丽的汤来为大家演示一下如何实现京东商品信息的精准匹配~~HTML文件其实就是由一组尖括号构成的标签组织起来的,每一对尖括号形式一个标签,标签之间存在上下关系,形成标签树;因此可以说Beautiful Soup库是...原创 2019-02-28 20:24:10 · 2070 阅读 · 0 评论 -
Python大神利用正则表达式教你搞定京东商品信息
京东(JD.com)是中国最大的自营式电商企业,2015年第一季度在中国自营式B2C电商市场的占有率为56.3%。如此庞大的一个电商网站,上面的商品信息是海量的,小编今天就带小伙伴利用正则表达式,并且基于输入的关键词来实现主题爬虫。首先进去京东网,输入自己想要查询的商品,小编在这里以关键词“狗粮”作为搜索对象,之后得到后面这一串网址:https://search.jd.com/Search?k...原创 2019-02-27 12:16:41 · 2958 阅读 · 3 评论 -
零基础小白入门Python,值得看的几本书籍
Python目前是全球4大流行编程语言之一,根据今年TIOBE最新排名,Python已超越C#,与Java,C,C++一起成为全球前4大最流行语言,指数变化一直呈现出上升的趋势。TIOBE最新排名众所周知,Python应用广泛,涵盖后端开发、游戏开发、网络爬虫、网站开发、数据挖掘、科学运算、大数据分析、云计算。人工智能等领域,感觉像神一样的存在。Python这么火,那么从入门到精通学习...原创 2019-02-27 12:15:38 · 15345 阅读 · 1 评论 -
Python大牛带你实现12306全自动抢票,学完后春运回家抢票无忧
随着2018年春节的脚步日益临近,归心似箭的人们都希望能尽快赶回家中。中国人回家过年,是每个人一年中最重要的事,无论你离家远近。在所有的交通工具中,承担着最大客流量的交通工具,毫无疑问是火车。中国庞大的人口与密布的中中国铁路网紧密相连,每一个归家游子的回家欲求逐渐汇聚成春运大潮,成为每年春节都避免不了的现象。另据TechWeb报道 1月8日消息称,2018年春运从2月1日开始至3月12日结束,共计...原创 2019-02-26 15:56:55 · 2263 阅读 · 0 评论 -
小白应该如何学习Python网络爬虫?
人生苦短,我用PythonPython网络爬虫上手很快,能够尽早入门,可是想精通确实是需求些时间,需求达到爬虫工程师的级别更是需求煞费苦心了,接下来共享的学习道路是针对小白或许学习Python网络爬虫不久的同伴们。学习网络爬虫能够分三步走,如果你是大神,请直接绕走,蟹蟹~~第一步,刚触摸Python网络爬虫的时分肯定是先过一遍Python最基本的常识,比如说:变量、字符串、列表...原创 2019-02-26 15:52:38 · 730 阅读 · 0 评论 -
用Python网络爬虫来抓取网易云音乐歌词
前几天小编给大家分享了数据可视化分析,在文尾提及了网易云音乐歌词爬取,今天小编给大家分享网易云音乐歌词爬取方法。本文的总体思路如下: 找到正确的URL,获取源码; 利用bs4解析源码,获取歌曲名和歌曲ID; 调用网易云歌曲API,获取歌词; 将歌词写入文件,并存入本地。 本文的目的是获取网易云音乐的歌词,并将歌词存入到本地文件。整体的效果图如下所示:...原创 2019-02-26 15:50:44 · 3324 阅读 · 0 评论 -
手把手教你如何新建scrapy爬虫框架的第一个项目(下)
前几天小编带大家学会了如何在Scrapy框架下创建属于自己的第一个爬虫项目(上),今天我们进一步深入的了解Scrapy爬虫项目创建,这里以伯乐在线网站的所有文章页为例进行说明。 在我们创建好Scrapy爬虫项目之后,会得到上图中的提示,大意是让我们直接根据模板进行创建Scrapy项目。根据提示,我们首先运行“cd article”命令,意思是打开或者进入到article文件夹下,尔后执行...原创 2019-02-24 21:00:51 · 2923 阅读 · 0 评论 -
手把手教你如何新建scrapy爬虫框架的第一个项目(上)
前几天给大家分享了如何在Windows下创建网络爬虫虚拟环境及如何安装Scrapy,还有Scrapy安装过程中常见的问题总结及其对应的解决方法,感兴趣的小伙伴可以戳链接进去查看。关于Scrapy的介绍,之前也在文章中提及过,今天小编带大家进入Scrapy爬虫框架,创建Scrapy爬虫框架的第一个项目,具体过程如下所示。 1、进入虚拟环境,不知道进入的环境的小伙伴可以戳这篇文...原创 2019-02-22 16:50:47 · 5826 阅读 · 0 评论