![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Python
文章平均质量分 66
Vivid-victory
○( ^皿^)っHiahiahia…
展开
-
【深度学习】Keras自建神经网络模型实现133种狗的种类识别(记录笔记)
一、加载数据from sklearn.datasets import load_files from keras.utils import np_utilsimport numpy as npfrom glob import globimport timet0=time.time()print('显示此刻的时间:',time.strftime('%Y-%m-%d %H:%M:%S',time.localtime(time.time())))# 定义函数来加载train,test原创 2021-02-24 16:34:14 · 1639 阅读 · 1 评论 -
【Python】代码实现LL(1),LR(1)上下文无关文法(Stack()类)
任务要求针对书上第三章中的表达式文法,采用LL(1)、LR(1)进行分析相关文法(需要进行消除左递归等操作):顺手分享一下课本资源好了(可能不是最新版,排版略有点别扭)后文的书上内容就是指这本书:[编译原理].陈意云.文字版提取码:e0agLL1介绍LL(1):从左往右处理输入,最左推导,向前展望1个符号的,不带回溯的自上而下的算法,是上下文无关文法的子集。LL1代码实现书上P59-60#LL1import pandas as pdclass Stack: d原创 2020-06-04 23:36:04 · 2446 阅读 · 0 评论 -
【Python】Scipy处理图片(ndimage shift rotate zoom)
例图一、灰度图处理(二维)可采用Scipy自带图片,亦可读入本地图片。misc.imread()方式读入失败,故这里采用cv2.imread()读入。#图片处理import numpy as npimport scipy.misc as miscimport scipy.ndimage as ndimage#黑白图#face =misc.face(gray =True)#face = misc.imread('handsome.jpg')import cv2face = cv2.i原创 2020-06-01 22:21:11 · 2223 阅读 · 0 评论 -
【Python】代码实现TF-IDF算法将文档向量化(os.listdir())
所用数据为经典的20Newsgroup数据数据集链接:http://qwone.com/~jason/20Newsgroups/(比较慢,建议采用Science上网等其他方法下载)直接上完整代码:# -*- coding: utf-8 -*-import os import mathimport pandas as pdfrom sklearn.feature_extraction.text import TfidfVectorizerdef TF(wordSet,split):原创 2020-05-29 09:21:12 · 1207 阅读 · 0 评论 -
【Python】向量空间模型:TF-IDF实例实现(set.union())
一、部分理论介绍向量空间模型(VSM:Vector Space Model)TF-IDF(term frequency–inverse document frequency)TF是词频(Term Frequency),IDF是逆文本频率指数(Inverse Document Frequency)其他理论部分请依据关键词自行探索研究。二、TF-IDF相关实例1、题目Q:“gold silver truck”D1:“Shipment of gold damaged in a fire”D2原创 2020-05-28 22:34:28 · 5042 阅读 · 0 评论 -
【Python】超市数据处理(to_datetime(),strptime()获取特定时间数据)
任务要求1、哪些类别的商品比较畅销?2、哪些商品比较畅销?3、求不同门店的销售额占比,绘制饼图4、哪段时间段是超市的客流高峰期?知识点杂记1、Python time strptime()方法struct_time = time.strptime("30 Nov 00", "%d %b %y")print("返回的元组: " ,struct_time)2、python统计list中个元素出现次数pd.value_counts(data)3、Pandas 中Dataframe数据插原创 2020-05-27 17:29:15 · 908 阅读 · 0 评论 -
【Python】傅里叶变化去除图片噪声,定积分求圆周率(Scipy,fft,integrate)
一、傅里叶去除图片噪声import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport scipy.fftpack as fft# %matplotlib inline# %matplotlib QT5#1 傅里叶去除图片噪声moon_data = plt.imread('moonlanding.png') #ndarray#plt.figure(figsize=(12,11)) #调整图片显示大小原创 2020-05-25 16:09:11 · 1670 阅读 · 1 评论 -
【Python】美国大选献金项目数据分析(concat(),lambda(),groupby(),pivot_table())
任务要求读入美国总统选举政治献金数据文件,合并三个文件的数据查看数据基本信息缺失值处理,(填充 ‘NOT PROVIDE’)通过给定字典,添加候选人对应党派信息parties = {‘Bachmann, Michelle’: ‘Republican’,‘Romney, Mitt’: ‘Republican’,‘Obama, Barack’: ‘Democrat’,“Roemer, Charles E. ‘Buddy’ III”: ‘Republican’,‘Pawlent原创 2020-05-20 18:16:45 · 1495 阅读 · 0 评论 -
【Python】数据预处理:归一化和离散化(MinMaxScaler,StandardScaler,cut,qcut)
一、内容来源课程来源:大数据分析师(第一期)(学堂在线 北邮 杨亚)数据集分享:https://pan.baidu.com/s/197wLiuRLaB8kOxV9Ay7eTQ提取码:hldd二、学习笔记注意点:若采用sklearn.preprocessing中的函数进行归一化,要将数据转为二维的!数据只有一维,可采用方法:reshape(-1, 1) #变为n行1列的二维矩阵形式参考资料:25、pandas的reshape(1,-1)什么意思?三、代码分享import pandas a原创 2020-05-18 18:06:41 · 2146 阅读 · 0 评论 -
【Python】处理城市空气质量数据(异常值处理,interpolate()线性插值)
一、内容来源课程来源:大数据分析师(第一期)(学堂在线 北邮 杨亚)数据集分享:链接:https://pan.baidu.com/s/1nU29LEfrILve3-ERqccUTQ提取码:6ptf二、学习笔记(广州)3σ原则为数值分布在(μ-σ,μ+σ)中的概率为0.6827数值分布在(μ-2σ,μ+2σ)中的概率为0.9545数值分布在(μ-3σ,μ+3σ)中的概率为0.9973数据处理代码1:找出异常值,并通过线性插值的方式处理掉import numpy as npimport原创 2020-05-13 20:39:37 · 3147 阅读 · 0 评论 -
【Python】数据处理:分析沈阳PM指数年均变化情况(dropna()、groupby())
一、内容来源任务:分析处理天气数据,并计算出PM指数年均变化情况课程来源:大数据分析师(第一期)(学堂在线 北邮 杨亚)数据集分享:链接:https://pan.baidu.com/s/1nU29LEfrILve3-ERqccUTQ提取码:6ptf二、数据信息三、代码import numpy as npimport pandas as pdimport time#1 读取数据filename = 'ShenyangPM20100101_20151231.csv'#df = pd原创 2020-05-13 20:26:54 · 355 阅读 · 0 评论 -
【Python】爬取链家网页后的数据处理:北京房价排序(学堂在线 杨亚)
一、内容来源任务:将爬取获得的".json"文件转为".csv"文件,并进行数据处理课程来源:大数据分析师(第一期)(北邮 杨亚)前期步骤(数据获取):【Python】动态页面爬取:获取链家售房信息(学堂在线 杨亚)注意:本实例获取的数据为链家“北京二手房”前三页,若需更多数据,可修改前期爬取数据的代码二、数据变化过程1、".json"文件转为".csv"文件数据量大,可采用代码的方式转换。本实例采取网页方式转换:https://json-csv.com/2、原数据:3、按"|"拆分描原创 2020-05-13 19:59:30 · 943 阅读 · 0 评论 -
【Python】动态页面爬取:获取链家售房信息(学堂在线 杨亚)
一、内容来源任务:学会爬取一个网站的部分信息,并以".json"文件形式保存课程来源:大数据分析师(第一期)(北邮 杨亚)爬取网站:链家二手房 链家新房二、准备工作对于准备阶段,可参考:【Python】Scrapy入门实例:爬取北邮网页信息并保存(学堂在线 杨亚)1、创建工程在cmd.exe窗口,找到对应目录,通过下列语句创建工程scrapy startproject lianj...原创 2020-05-06 16:53:32 · 1482 阅读 · 0 评论 -
【Python】豆瓣电影TOP250数据规律分析(Pearson相关系数、折线图、条形图、直方图)
1、数据集预览部分数据说明:豆瓣排名num评分rating_num评分人数comment_num电影时长movie_duration2、查看电影数据集基本数据信息import numpy as npimport pandas as pdimport matplotlib.pyplot as pltdata = pd.read_csv('电影排名.csv') #读取数据#1...原创 2020-04-29 18:25:29 · 7738 阅读 · 4 评论 -
【Python】Scrapy入门实例:爬取北邮网页信息并保存(学堂在线 杨亚)
内容来源任务:学会爬取一个网站的部分信息,并以".json"文件形式保存课程来源:大数据分析师(第一期)(北邮 杨亚)爬取网站:教学辅助单位-北京邮电大学项目基本流程概述:1.新建项目(scrapy startproject xxx):新建一个新的爬虫项目2.确定目标(编写items.py) :明确你想要抓取的目标3.制作爬虫(spiders/xxspider.py) :制作爬虫开始...原创 2020-04-29 15:48:08 · 1315 阅读 · 1 评论 -
【Python】网络爬虫与信息提取入门实例:爬取网页并保存(MOOC 嵩天)
内容来源中国大学慕课 北理工 嵩天老师Python网络爬虫与信息提取学习笔记步骤1:建立一个Scrapy爬虫工程1、通过下面的语句建立一个scrapy工程(注意路径位置):scrapy startproject python123demo2、scrapy工程层次图3、工程文件注解步骤2:在工程中产生一个 Scrapy爬虫在命令行中执行以下的语句,生成一个爬取“pyt...原创 2020-04-27 18:30:15 · 970 阅读 · 0 评论 -
【Python】Pandas入门(Series、DataFrame)
内容来源中国大学MOOC 《Python数据分析与展示(嵩天)》单元7: Pandas库入门推荐大家直接去看视频!Series的生成Series类型可以由如下类型创建:(1)Python列表, index与列表元素个数一致(2)标量值,index表达Series类型的尺寸(3)Python字典,键值对中的"键”是索引, index从字典中进行选择操作(4)ndarray ,索引和数...原创 2020-03-23 15:31:55 · 321 阅读 · 0 评论 -
【Python】Matplotlib库基础绘图函数(子绘图,饼图、直方图、玫瑰图、散点图、条形图)
子绘图1、plt.subplot2grid()#pyplot 子绘图区域import numpy as pyimport matplotlib.pyplot as pltplt.subplot2grid((3,3),(0,0),colspan=3)plt.subplot2grid((3,3),(1,0),colspan=2)plt.subplot2grid((3,3),(1,2),...原创 2020-03-16 17:46:24 · 949 阅读 · 0 评论 -
【大数据】城市公交网络分析与可视化(四):绘制城市公交(地铁)线路图
1 采用循环法获取线路名怎么获取一个城市有哪些线路名?遍历前1000路公交。有遗漏怎么办?想指点区域怎么办?见后文的“读取文本”法。实际上遍历1000路公交基本能涵盖一个城市大多数公交线路,遗漏的很多也是一些特殊的路线。代码import requestsimport jsonimport pandas as pdimport redef Bus_inf(city,line):...原创 2020-03-15 19:24:03 · 16142 阅读 · 16 评论 -
【大数据】城市公交网络分析与可视化(六):对比分析不同城市公交的“非直线系数”
内容介绍求一个城市的公交的平均(非)直线系数,并结合系列博客前面所求得的公交线路的平均长度、平均站点数、平均站距,对比分析几个城市的基本公交平均数据。准备知识1、什么是“非直线系数”?(参考百度百科)非直线系数是指道路起讫点间的实际交通距离与两点间空间直线距离之比。能评价不同的路网型式和客货流路线集散点之间联系的便捷程度。非直线系数:①棋盘式路网1.2〜1.4。②放射性路网一般在2.6左右...原创 2020-03-15 20:34:13 · 8731 阅读 · 3 评论 -
【大数据】城市公交网络分析与可视化(五):获取公交平均路线长度、站点数、站距
内容简介也不前情提要了,本博客内容高度概括就是:通过直接遍历法和依据文本的法,获取一个城市公交的平均路线长度、平均站点数、平均站距(“直线系数”将在下一篇博客中讨论)正文1、获取公交信息练习代码(1)程序任务:通过高德地图PAI,爬取一个城市所有(可选)公交基本信息,并保存到表格中。采用循环遍历一定范围的数字实现,不封装函数(好处是,方便查看变量信息,及时发现错误,利于修改)(2)可直...原创 2020-03-15 19:35:19 · 5493 阅读 · 3 评论 -
【大数据】城市公交网络分析与可视化(三):获取公交站点信息并可视化站点重要程度
博客内容简介通过前面的探究,我们大体知道如何获取一个城市的公交数据,并绘制了公交行驶路径散点图(效果不是很理想)。其实散点图感觉更适合类似于绘制公交站点这样的信息(行驶轨迹有其他更好的绘制技巧),故本篇博客将整理之前爬取公交数据的代码,可视化相关公交站点信息,并透过可视化信息知道哪些站点是关键站点!和之前一样,本文依旧是基于青岛市来分析正文1、获取一个城市所有(可选)基本信息和公交站点信...原创 2020-03-15 19:20:11 · 9985 阅读 · 19 评论 -
【大数据】城市公交网络分析与可视化(二):获取公交行驶路径并绘制散点图
博客内容说明本博客为系列课题第二篇,一些必要的内容请见:【大数据】城市公交网络分析与可视化(一):借助Python爬取公交车行驶路径等基本信息具体探究过程运行环境:Anaconda 中的Spyder软件1、青岛市1路到10路公交运行路线(轨迹)(1)直接可运行代码确实有可能出现我这里运行的好好的,但他处不能运行的情况,emmmmm,祝你好运!import requestsimpo...原创 2020-03-15 19:16:05 · 7817 阅读 · 6 评论 -
【大数据】城市公交网络分析与可视化(一):基于Python爬取公交车行驶路径等基本信息
说明本文主要性质为代码分享类文章,以及考虑到个人最近精力有限,故不做知识点详细介绍!但可以告诉大家有哪些关键点:1、高德开放平台|高德地图API注册账号->获取Key(密钥Key是url中的一个关键参数,具体获取细节,但我把自己申请的密钥直接放到代码中了,所以不申请问题也不大)2、啥是API?API(Application Programming Interface,应用程序接...原创 2020-03-15 13:44:10 · 12406 阅读 · 21 评论 -
【Python】Matplotlib库入门学习笔记(实用画图工具)
内容来源经常遇到要用python画图的场合,常常一时想不起怎么画图,故这里专门记录一下用python中matplotlib库画图的入门知识。中国大学MOOC 《Python数据分析与展示(嵩天)》第二周 单元4:Matplotlib库入门推荐大家直接去看视频,讲的真的很好,耐心听,能学到不少实用的东西(和是不是计算机专业的没关系)学习笔记要是出不来图,应该是你没装好matplotlib库...原创 2020-03-09 19:23:53 · 481 阅读 · 0 评论 -
【Python】图片存取、相关灰度处理、手绘效果(PIL库)
背景介绍资源参考于:Python数据分析与展示【北理工 嵩天】第一周实例顺便一提:中国大学慕课,有的课程过期了不让访问。这个课是我之前就报名参加的,所以现在可以直接访问,有意思的是:好像别人点击我的链接也是能访问的。当然,慕课上的“过期”课程网上有很多方法能访问,这里不做深入讨论。慕课上的教程挺详细的,故这里不作知识介绍了。直接上完整代码下面的代码与其说是我写的,倒不如说是我整理...原创 2020-03-02 22:36:08 · 521 阅读 · 0 评论 -
【Python】对英文文本进行词频统计(分词、字典排序、文件读写)
准备知识1、python读取文件推荐链接:Python读写txt文本文件不想细究,直接上手的读取文件参考代码#默认文件位置为当前python代码的路径(相对路径)#输出文件应为字符串类型f = open('读取的文件名.txt',"r")str1=f.read()f.close()fw=open('输出的文件名.txt','w')fw.write(str(list1))fw...原创 2020-02-25 00:03:52 · 4065 阅读 · 0 评论 -
【Python】按照字典中值的大小对键进行排序(lambda、sorted()、zip())
按照字典中值的大小对键进行排序方式一python3字典的排序这篇博客对于python字典排序的相关知识介绍比较全面,其中我们需要的功能代码为:dict1={'a':12,'e':3,'f':8,'d':4}list1= sorted(dict1.items(),key=lambda x:x[1])print(list1)其中lambda为匿名函数,作用是“取出字典的值”作为排序函...原创 2020-02-24 23:00:25 · 7563 阅读 · 0 评论 -
【Python】英文文本分词与词频统计(split()函数、re库)
英文文本分词1、知识准备(1)Python中的split()函数的用法了解split()的基本用法(2)python多个分割符split字符串了解re库的部分用法Python strip() 方法用于移除字符串头尾指定的字符(默认为空格或换行符)或字符序列。注意:该方法只能删除开头或是结尾的字符,不能删除中间部分的字符。2、实践代码将英文句子分词,并记录通过字典的方式记录每个...原创 2020-02-24 22:41:26 · 18537 阅读 · 3 评论 -
【Python】实现正向(逆向)最大匹配法(中文分词,NLP,编译原理)
正向最大匹配法(Maximum Match Method)Step 1 假定分词词典中的最长词有i个汉字字符,则用被处理的当前字串中的前i个字作为匹配字段,查找字典。Step 2 若字典中存在这样一个i字词,则匹配成功;否则,失败,将匹配字段中的最后一个字符去掉, 对剩下字串进行匹配。Step 3 如此进行下去,直到匹配成功,即切分出一个词或剩余字串长度为0。不停的匹配,直到文档被扫描完为...原创 2020-02-23 23:53:37 · 9195 阅读 · 3 评论 -
【Python】实训9:家用热水器用户行为分析与事件识别(所谓的神经网络,BP)
实训1清洗运营商客户数据1.训练要点(1)掌握去重的原理与方法。(2)掌握缺失值与异常值的识别与处理。2.需求说明某运营商提供了不同用户3个月的使用信息,共900000条数据,共34个特征列、1个标签列,其中存在- -定的重复值、缺失值与异常值。其字段说明如表9-17所示。3.实现步骤(1)识别与处理数据中的重复值。(2)识别与处理数据中的缺失值。(3)识别与处理数据中的异常...原创 2020-02-12 21:48:45 · 5999 阅读 · 15 评论 -
【Python】实训7:航空公司客户价值分析(K-means聚类)
实训1处理信用卡数据异常值1.训练要点(1)熟悉信用卡的基本业务知识。(2)掌握异常值的识别与处理方法。2.需求说明为了推进信用卡业务良性发展,减少坏账风险,各大银行都进行了信用卡客户风险识别的相关工作,建立了相应的客户风险识别模型。某银行因旧的风险识别模型随时间推移不再适应业务发展需求,雷要重新进行风险识别模型构建。目前,银行给出的信用卡信息数据说明如表7-11所示。3.实现思路及...原创 2020-01-09 11:13:39 · 9679 阅读 · 3 评论 -
【Python】实训3:Matplotlib数据可视化(绘制散点图、折线图、直方图、饼状图、箱线图)
题目来源:《Python数据分析与应用》第3章 Matplotlib数据可视化基础【 黄红梅、张良均主编 中国工信出版集团和人民邮电出版社】本博客题目内容来自:QQ组合键“ctrl+alt+o”截取书本PDF文件获取的数据集下载链接(下载后找到第3章->实训数据)实训1分析 1996~ 2015年人口数据特征间的关系1.训练要点(1)掌握pyplot基础语法。(2)掌握子图的...原创 2020-01-07 18:10:31 · 13561 阅读 · 3 评论 -
【Python】实训2:创建数组并进行运算、创建一个国际象棋棋盘(Numpy基础)
题目来源:《Python数据分析与应用》第2章 Numpy数值计算基础 实训部分【 黄红梅、张良均主编 中国工信出版集团和人民邮电出版社】本博客题目内容来自:QQ组合键“ctrl+alt+o”截取书本相关文件获取的(这个组合键没法用的可以去QQ设置里看看热键有没有冲突)实训1创建数组并进行运算1.训练要点(1)掌握NumPy的数组创建及随机数生成。(2)掌握NumPy中用于统计分析...原创 2020-01-07 17:20:25 · 25508 阅读 · 2 评论 -
【Python】简单记录显示程序运行时间和显示当前时间日期的方法(time库)
最近经常遇到一些运行时间特别长的程序,从而导致需要记录程序运行时长的情况开始变多,特此随手一记。一、去繁从简版:#python记录时间信息练习import timet0=time.time()print('显示此刻的时间:',time.strftime('%Y-%m-%d %H:%M:%S',time.localtime(time.time())))t1=time.time()p...原创 2019-12-23 22:20:20 · 8164 阅读 · 1 评论 -
【机器学习】人工智能实验:SVM分类器人脸识别(sklearn、python读图片、GridSearchCV简单应用)
一、实验基本情况介绍1、数据集介绍选取 ORL 人脸数据库作为实验样本,总共 40 个人,每人 10 幅图像,图像大小为112*92 像素。图像本身已经经过处理,不需要进行归一化和校准等工作。实验样本分为训练样本和测试样本。首先设置训练样本集,选择 40 个人前 5 张图片作为训练样本,进行训练。然后设置测试样本集,将 40 个人后 5 张图片作为测试样本,进行选取识别。数据与源代码百度网...原创 2019-12-28 10:19:42 · 6945 阅读 · 8 评论 -
【Python】实训8:企业所得税回归模型(Pearson相关系数、Lasso、灰色预测模型、SVR)
题目来源:《Python数据分析与应用》第8章 财政收入预测分析 实训部分【 黄红梅、张良均主编 中国工信出版集团和人民邮电出版社】本博客题目内容来自:QQ组合键“ctrl+alt+o”截取书本PDF文件获取的(敲题目是不能敲题目的)(这个组合键贼好用)数据集下载链接(下载后找到第8章->实训数据)数据特征预览:实训1 求取企业所得税各特征间的相关系数1.训练要点(1)掌...原创 2020-01-09 13:39:18 · 13369 阅读 · 5 评论 -
【Python】实训5:使用pandas进行数据预处理( lagrange插值、merge合并、标准化)
题目来源:《Python数据分析与应用》第5章【 黄红梅、张良均主编 中国工信出版集团和人民邮电出版社】本博客题目文字主要来自:全能扫描王文字识别转换(敲题目是不可能去敲题目的)数据集下载链接(下载后找到第6章->实训数据)实训1 插补用户用电量数据缺失值1.训练要点(1)掌握缺失值识别方法。(2)掌握对缺失值数据处理的方法。2、需求说明用户用电量数据呈现一定的周期性关...原创 2020-01-08 15:04:53 · 25160 阅读 · 11 评论 -
【Python】实训4:pandas统计分析基础(pandas基础操作)
题目来源:《Python数据分析与应用》第4章 pandas统计分析基础【 黄红梅、张良均主编 中国工信出版集团和人民邮电出版社】本博客题目文字主要来自:印象笔记OCR文字识别转换(敲题目是不可能去敲题目的)【OCR (Optical Character Recognition,光学字符识别)】数据集下载链接(下载后找到第4章->实训数据)实训1读取并查看P2P网络贷款数据主表...原创 2020-01-07 18:11:21 · 34515 阅读 · 5 评论 -
【Python】实训6:基于wine和wine_quality数据集练习sklearn构建模型方法(预处理、聚类、分类、回归)
题目来源:《Python数据分析与应用》第6章 使用 scikit-learn 构建模型 实训部分【 黄红梅、张良均主编 中国工信出版集团和人民邮电出版社】本博客题目文字主要来自:印象笔记OCR文字识别转换(敲题目是不可能去敲题目的)【OCR (Optical Character Recognition,光学字符识别)】数据集下载链接(下载后找到第6章->实训数据)实训1 ...原创 2020-01-09 11:01:51 · 42033 阅读 · 18 评论