
Python数据挖掘教程
长行
这个作者很懒,什么都没留下…
-
原创 Python数据采集案例(4):B站UP主发布视频信息采集
作者:长行时间:2020.05.29Github原文:Week-04/Example-0404实现目标本案计划实现:通过网络请求,获取UP主发布的所有视频的信息(包括视频标题、视频播放次数),并输出到控制台。【案例应用技巧】GET请求(requests):headers浏览器抓包(Chrome)翻页Json解析(json)实现过程当前爬虫的实现流程如下:确定数据所在的Url,以及控制翻页的参数执行网页请求并解决请求中出现的问题Json解析实现翻页下面我们按着以上步.2020-05-29 11:49:40490
0
-
原创 数据挖掘领域实用Github项目推荐
作者:长行创建时间:2020.05.24更新时间:2020.05.29本文持续更新…Python基础Python练习册,每天一个小程序(11.0k星标)[项目名] show-me-the-code[作者] Yixiaohan25个实用性较高的案例,包括一些实用性的技巧;但是案例也有些难度,适合于对Python基础语法已经比较熟悉的人,不适合完全的初学者。Python 100天从新手到大师(86.4k星标)[项目名] Python-100-Days[作者] jackfrued.2020-05-29 07:52:36513
0
-
原创 Python数据采集案例(3):豆瓣电影TOP250采集
作者:长行时间:2020.05.28实现目标本案计划实现:通过网络请求,获取豆瓣电影TOP250的数据,并存储到Json文件中。案例应用技巧:GET请求(requests):headers翻页网页解析(BeautifulSoup)实现过程总体来说,简单的单线程爬虫的实现流程如下:确定数据所在的Url,以及控制翻页的参数执行网页请求并解决请求中出现的问题解析网页,获取格式化数据实现翻页存储数据下面我们按着以上步骤来依次完成。确定数据所在Url在Chrome浏览器中.2020-05-28 12:31:13440
0
-
原创 Python文本分析案例:近体诗格律分析
作者:长行时间:2020.05.26Github原文:Week-03/Example-0301在这个案例中,我们将要实现近体诗格律的分析。具体的,我们从如下角度分析近体诗的格律:诗句数量、诗句字数是否符合近体诗的要求,即是否为五绝、七绝、五律、七律中的一种(暂不考虑排律、六言的情况)是否押了平声韵,所押的韵脚是什么平水韵部(暂不考虑首句押韵的情况)诗句是否有拗句,是否存在孤平和拗救的情况诗文是否符合对黏的要求如果当时该诗不符合第1个或第2个要求,则不再分析;如果符合第1个和第2个要求.2020-05-26 18:49:53348
0
-
原创 Python基础算法案例:24点纸牌游戏算法
作者:长行时间:2020.05.14Github原文: Week-03/Example-0303目标要求对于任意给定的四张扑克牌,计算是否有赢得24点游戏的方法(即使用加、减、乘、除四则运算凑成24的方法);如果有的话,列出所有可能的方法。【24点游戏规则】在大小王以外的52张牌中,任意抽取其中4张牌。如果通过加、减、乘、除四则运算(可加括号)的方法,将抽到的4张牌算成24,则为胜利;每张牌都必须使用,且只能使用一次。第一种解法依据游戏规则,我们可以想到如下解决思路:使用枚举的方法,.2020-05-26 15:30:07442
2
-
原创 Python数据采集案例(2):Selenium实现的猫眼网播热度采集
作者:长行时间:2020.05.26Github原文: Week-04/Example-0402实现目标本案例通过图文详细介绍使用Selenium请求和解析网页方法,其目标实现的需求为:通过Selenium,获取猫眼中实时网播热度的数据,并打印到控制台中。案例应用技巧:SeleniumSelenium安装方法通过pip安装selenium模块,安装命令:pip install selenium下载与Chrome浏览器版本配套的chromedriver可执行文件,下载地址:.2020-05-26 13:22:36184
0
-
原创 Python数据采集案例(1):微博热搜榜采集
Python数据采集案例(1):微博热搜榜采集作者:长行时间:2020.05.25实现目标本案例通过图文详细介绍网络请求和解析的方法,其目标实现的需求为:通过网络请求,获取微博热搜榜中的前50条热搜的关键词,并将结果打印到控制台中。实现过程总体来说,数据采集爬虫的实现过程包括如下步骤:确定数据所在的Url执行网页请求并解决请求中出现的问题解析网页,获取格式化数据存储数据(当前案例中不需要)下面我们按着以上步骤来依次完成。确定数据所在Url打开微博热搜榜,即Url为:http2020-05-25 13:19:29866
0
-
原创 Python类与对象引用案例:地名查询
Python基础算法案例:地名查询工具作者:长行时间:2020.05.24目标要求解析“中国地名表.json”,并实现如下功能:根据给定的中国地名,判断该地名是否存在;若地名不存在,返回None;若地名存在,则给出该地名所属的上级地名和该地名包含的下级地名。例如,给出“秦皇岛市”,返回其上级地名“河北省”以及其下级地名“海港区”、“山海关区”等。对于给定的中国地名A,判断该地名是否存在;若地名不存在,返回None;若地名存在,则返回该地名所属的各级上级地名。例如,给出“海港区”,返回其所有2020-05-24 14:30:25265
2
-
原创 常用正则表达式大全
基础需求匹配数值匹配标准正整数:[1-9]\d*匹配以,分隔的正整数:[1-9][\d,]*(第一位不能为0)匹配以,分隔的正整数或正小数:[1-9][\d,]*\.?\d*|0\.?\d*[1-9]\d*(整数部分为0时小数部分至少有一位不为0、小数部分不会出现,来间隔)匹配以,分隔的整数或小数:(\-|\+)?[1-9][\d,]*\.?\d*|0\.?\d*[1-9]\d*|0(在数字前可以允许正号或负号;允许0)其他匹配数值的需求基本都可以从以上几个正则表达式中略作修改即可。如果练习的2020-05-16 06:48:19243
0
-
原创 看故事学会正则表达式
这这个教程中,我尝试使用一种故事场景来讲解正则表达式,以期能够为大家更愉快、更容易地理解。有一天,小明在用Python做文本清洗的时候,突然觉得“233”太多了,觉得像是在嘲讽自己,怎么都看不顺眼,下定决心要把文本里所有的“233”全部干掉,于是一场属于小明和233的战争就这样拉开了帷幕。一开始,小明直接使用制式武器字符串替换,通过将“233”替换为空,处理掉了所有的“233”。str = str.replace("233", "", str)(以上代码的打击面是字符串中包含的所有“233”子.2020-05-16 06:47:41205
1
-
原创 Python数据挖掘教程-第12天:Python的错误和调试
在我们的程序运行中,不可避免地会出现各种各样的错误。造成这些错误的原因也多种多样,可能是因为代码逻辑存在疏漏,某一种情况我们没有考虑到;也可能是因为用户的特殊操作,使我们的程序陷入了未曾涉及的场景……错误处理当Python将错误信息输出到控制台后,我们首先需要定位到错误发生的位置。def test(name): return int(name)test("cbekd")例如,以上代码运行时会出现如下错误信息:Traceback (most recent call last): Fi2020-05-15 14:55:5499
0
-
原创 Python文本整理案例分析:《全唐诗》文本整理
在整理《全唐诗》的文本之前,我们首先需要完成以下两个步骤:确定需求了解文本在完成以上步骤后,我们开始实际着手整理文本,在整理的过程中大体上也包含两个流程:文本解析结果输出全唐诗文本语料在“全唐诗.txt”文件中,请参考语料阅读以下内容。确定需求我们计划将《全唐诗》中的每一首诗的各种信息分别提取出来,并转存为csv的形式。根据对文本的初步了解,我们发现我们需要提取的信息(即绝大部分诗文都包含的共性信息)包括:诗文的所属的卷编号(后简称卷编号)诗文的在当前卷中的序号(后2020-05-15 14:55:15675
0
-
原创 Python通过Openpyxl读写Excel的初级教程
Openpyxl是一个用于读写Excel2010文件的Python第三方包。相较于xlrd,虽然没有与pandas的有效交互,但是在样式设置上的功能更加强大。其pip安装命令如下:pip install openpyxlOpenpyxl的整体逻辑是:首先通过打开或创建的方法,实例化Excel的工作簿文件(Workbook类);接着再通过打开或创建的方法,实例化Excel的工作表(Worksheet类);然后通过坐标或其他方式定位到一个或多个单元格执行操作;最后,将操作结果存入文件中。工作簿层级操作2020-05-15 14:53:33184
0
-
原创 Python数据挖掘教程-第7天(1):Python常用内置函数
到目前为止(3.8.2),Python解释器共计提供了69个内置函数和类型,这些函数可以在任意条件下被调用。例如我们之前用来查询变量类型的type()就是一个内置函数。type()实际上是类的构造方法,其返回值是一个type对象,大家在没有理解类与对象之前,也可以先简单地将其理解为一个函数。下面我们来详细介绍一下在初学阶段比较常用的内置函数,在描述函数的功能时也主要以初学阶段可以用到的功能为主。1. 数据类型相关首先,我们先来了解一下与数据类型相关的内置函数。刚才用作举例的type()方法就是与2020-05-15 14:53:00163
0
-
原创 Python的69个内置函数功能汇总说明
Python到目前为止(3.8.2)共计提供了69个内置函数,这些函数可以在任何条件下被直接调用。官方文档地址:https://docs.python.org/zh-cn/3.8/library/functions.html在官方文档中,各个内置函数依据字母顺序进行排列,学习查询相对不便。下面,我们依据内置函数的类型,对常用的内置函数进行整理学习。在学习的过程中,我们不需要记住每一个内置函数的名字及其对应功能,但是尽可能在脑海中形成一个什么样的功能可以直接通过内置函数实现的印象。在实际操作时,可以2020-05-15 14:52:20228
0
-
原创 Python数据挖掘教程-第3天(4):注释
代码中的注释,在程序执行时会被忽略,主要是为了向协作者和未来的自己说明代码的思路、功能。我们在注释时应假设阅读者比我们的Python水平要高,阅读注释只是为了更快地理解代码要做什么,切忌直接描述代码。另外,注释也不宜过多,一般占到源代码的1/3左右是比较合适的。在Python中,主要有两种注释的方法,分别为单行注释和多行注释。单行注释使用#标记,可以单作一行,也可以用在其他行的结尾,这类注释主要用来解释一段代码(单作一行的情况)或用来解释该行代码的作用。为了提高可读性,放在行尾的注释距离代码至少间隔2个2020-05-14 17:15:29111
0
-
原创 Python数据挖掘教程-第3天(3):运算符
算术运算符在以上的内容中,我们已经涉及了加、减、乘、除、取余、取模、幂运算共7种运行。这类用于运算的符号叫做“运算符”,之前我们涉及的7种运算符都属于“算术运算符”。运算符功能+数字+数字=求和;字符串+字符串=按前后顺序合并字符串-数字-数字=计算差值*数字*数字=求积;字符串*数字=重复若干次的字符串/数字/数字=求商%数字%数字=取余(除法的余数部分)//数字//数字=取模(商的整数部分)**数字**数字=幂运算(前数的后数次幂2020-05-14 17:11:285078
7
-
原创 Python数据挖掘教程-第3天(2):变量的基本操作
下面,我们了解一下数值型变量和字符串变量的基本操作。数值变量的基本操作对于数值变量。我们首先,数值变量可以直接进行加减乘除的运算,也可以通过括号来调整计算顺序。a = 3b = 5print(a + b) # 输出值: 8print(b / a) # 输出值: 1.6666666666666667print((a + b) * b) # 输出值: 40有的时候,我们不需要得到小数形式的商,而是需要得到商的整数,也就是“取模”,可以使用“//”运算符;又或者只需要得到余数,也就是“取余2020-05-14 17:10:55113
0
-
原创 Python数据挖掘教程-第3天(1):变量
使用变量此前,我们已经了解了控制台输入和输出的方法,通过以下代码,我们可以实现了读取用户想到的数字并输出。number = input("你想到了什么数字? ")print("你想到的数字是:", number)在这段代码中:第一行我们使用input()函数从控制台读取了用户输入的内容,并将其存入了名为number的变量中,而在第二行中,我们使用print()函数将number变量的值输出到了控制台中。我们通常将第一行对number变量的操作称为“变量赋值”,将第二行对number变量的操作称为2020-05-14 17:10:24172
0
-
原创 Jupyter Nbextensions插件功能大全
Nbextensions简介Nbextensions软件包是Jupyter非官方扩展包的集合,可以为Jupyter提供很多实用的功能。这些扩展包大部分为Javascript编写,在运行Jupyter浏览器时被本地加载。文档地址:https://jupyter-contrib-nbextensions.readthedocs.io/en/latest/index.htmlNbextensions扩展包插件的安装方法关闭Jupyter,在命令提示符(cmd)中执行如下命令:pip install2020-05-14 17:08:011439
0
-
原创 Windows的Path环境变量详解
作者:长行时间:2020.05.01无论在搭建Python还是Java的环境时,都需要设置Windows的Path环境变量,那么Path环境变量究竟起到什么样的作用呢?首先,当我们没有在Path环境变量中设置Python的路径时,执行python的任意命令都会得到如下结果。C:\Users\Changxing>python --version'python' 不是内部或外部命令,也不是可运行的程序或批处理文件。然而当我们在Path环境变量中设置了Python的路径后,则会得到如下结果.2020-05-14 17:06:54113
0
-
原创 Python数据挖掘领域初学建议安装的第三方包
数据挖掘领域推荐安装的Python第三方包:requests : 网页请求urllib/urllib3 : 网页请求beautifulSoup4 : dom结构解析scrapy : 爬虫框架selenium : Web应用测试numpy : 数学方法pandas : 数据分析包scipy: 算法包matplotlib : 绘图mysql-connector : MySQL数据库django : Python Webpillow : 图形处理库opencv-python : 计算机2020-05-14 17:05:59100
2