数据分析
Python基础数据分析部分
大大枫free
分析与记录
展开
-
文本分析简历项目收集-----机器学习(仅供参考)
文本分析项目3:基于自然语言处理的影评分析项目简介:通过大量的正面和负面的电影评论对计算机进行自然语言训练,实现计算机对电影评论的基本情感分析,使其能够快速判断出评论是否积极个人职责:1. 对正面和负面的电影评论进行分词处理,整理成规定的训练数据集格式; \2. 对nltk自带的朴素贝叶斯分类器模型进行训练;\3. 最后模拟业务场景检测训练效果项目3:2018.08 – 2018.12 智能考试分析系统**项目描述:**由于公务员、事业单位、国企等面原创 2020-08-20 08:08:19 · 2152 阅读 · 0 评论 -
语音识别项目简历收集-----机器学习(仅供参考)
语音识别项目名称:智能手表语音识别系统**项目描述:**儿童智能监控语音识别手表,可以实现人机沟通,紧急呼救报警等功能。**职责描述:**1.使用scipy,numpy,读取和绘制音频数据2.使用傅里叶解析算法进行音频滤波3.使用正弦算法进行音频合成4.使用梅尔频率倒谱系数算法提取音频特征;5.创建隐马尔科夫模型用该模型的score值比较,进行语音识别。项目3 土地变更县级外业调查软件的语音识别系统项目描述:在土地变更的县级外业调查阶段,一般处于冬季,气候寒冷,本项目的语音识别模块可识别原创 2020-08-19 08:50:25 · 1308 阅读 · 0 评论 -
机器学习项目简历收集册-----机器学习(仅供参考)
图像识别项目一:齿轮表面粗糙度自动检测开发应用:python3+sklearn+opencv项目描述:1)使用CCD相机获取齿轮表面图像2)图片预处理,使用中值滤波,去除图片椒盐噪声,使用直方图均衡化进行图像增强3) 使用小波变换提取零件的纹理特征4)进行pca主成分分析进行降维获取特征5)使用支持向量机分类器进行分类项目二:验证码识别开发应用:python+tensorflow项目描述:1)通过公司提供的数据集对数据进行编码2)搭建cnn神经网络3)对模型进行训练,提高验证码的识别原创 2020-08-16 22:47:18 · 20617 阅读 · 0 评论 -
样本类别均衡化、K均值算法等核心API使用 ---- 机器学习
中文分词(jieba)https://github.com/fxsjy/jieba样本类别均衡化上采样与下采样处理样本类别均衡化下采样:把样本数据量大的那一类样本减少到与数据量小的那一类样本数量相近。上采样:把样本数据量小的那一类样本增加到与数据量大的那一类样本数量相近。通过类别权重的均衡化,使所占比例较小的样本权重较高,而所占比例较大的样本权重较低,以此平均化不同类别样本对分类模型的贡献,提高模型性能。样本类别均衡化相关API:model = svm.SVC(kernel='linear'原创 2020-08-13 07:58:13 · 620 阅读 · 0 评论 -
SVM原理与网格搜索如何应用----机器学习
支持向量机(SVM)支持向量机原理寻求最优分类边界正确:对大部分样本可以正确地划分类别。泛化:最大化持向量间距。公平:与支持向量等距。简单:线性,直线或平面,分割超平面。基于核函数的升维变换通过名为核函数的特征变换,增加新的特征,使得低维度空间中的线性不可分问题变为高维度空间中的线性可分问题。线性核函数:linear,不通过核函数进行维度提升,仅在原始维度空间中寻求线性分类边界。基于线性核函数的SVM分类相关API:model = svm.SVC(kernel='linear'原创 2020-08-11 07:52:47 · 5090 阅读 · 0 评论 -
如何正确划分训练数据集和测试数据集------机器学习
数据集划分对于分类问题训练集和测试集的划分不应该用整个样本空间的特定百分比作为训练数据,而应该在其每一个类别的样本中抽取特定百分比作为训练数据。sklearn模块提供了数据集划分相关方法,可以方便的划分训练集与测试集数据,使用不同数据集训练或测试模型,达到提高分类可信度。数据集划分相关API:import sklearn.model_selection as ms训练输入, 测试输入, 训练输出, 测试输出 = \ ms.train_test_split( 输入集, 输出集, test转载 2020-08-05 09:05:24 · 22548 阅读 · 0 评论 -
欧氏距离算法与NLP概述------机器学习
推荐引擎推荐引擎意在把最需要的推荐给用户。在不同的机器学习场景中通常需要分析相似样本。而统计相似样本的方式可以基于欧氏距离分数,也可基于皮氏距离分数。欧氏距离分数欧氏距离分数=11+欧氏距离欧氏距离分数 = \frac{1}{1+欧氏距离}欧氏距离分数=1+欧氏距离1计算所得欧氏距离分数区间处于:[0, 1],越趋于0样本间的欧氏距离越远,样本越不相似;越趋于1,样本间的欧氏距离越近,越相似。构建样本之间的欧氏距离得分矩阵:$$\left[\begin{array}{c}&转载 2020-07-29 08:53:50 · 636 阅读 · 0 评论 -
网格搜索、DBSCAN算法----机器学习
网格搜索获取一个最优超参数的方式可以绘制验证曲线,但是验证曲线只能每次获取一个最优超参数。如果多个超参数有很多排列组合的话,就可以使用网格搜索寻求最优超参数组合。针对超参数组合列表中的每一个超参数组合,实例化给定的模型,做cv次交叉验证,将其中平均f1得分最高的超参数组合作为最佳选择,实例化模型对象。网格搜索相关API:import sklearn.model_selection as msmodel = ms.GridSearchCV(模型, 超参数组合列表, cv=折叠数)model.fit转载 2020-07-20 17:42:27 · 1575 阅读 · 0 评论 -
交叉验证、学习曲线、支持向量机(SVM)等核心API----机器学习
交叉验证由于数据集的划分有不确定性,若随机划分的样本正好处于某类特殊样本,则得到的训练模型所预测的结果的可信度将受到质疑。所以需要进行多次交叉验证,把样本空间中的所有样本均分成n份,使用不同的训练集训练模型,对不同的测试集进行测试时输出指标得分。sklearn提供了交叉验证相关API:import sklearn.model_selection as msms.cross_val_score(模型, 输入集, 输出集, cv=折叠数, scoring=指标名)->指标值数组案例:使用交叉验证转载 2020-07-13 17:58:18 · 2200 阅读 · 0 评论 -
机器学习:分类模型的应用案例及核心API
人工分类特征1特征2输出3102511816405203514714-10………681510案例:import numpy as npimport matplotlib.pyplot as mpx = np.array([ [3, 1], [2, 5], [1, 8], [6, 4], [5, 2], [3, 5],转载 2020-07-08 06:07:16 · 1236 阅读 · 0 评论 -
机器学习:随机森林模型、正向激励模型应用案例及核心API
正向激励首先为样本矩阵中的样本随机分配初始权重,由此构建一棵带有权重的决策树,在由该决策树提供预测输出时,通过加权平均或者加权投票的方式产生预测值。将训练样本代入模型,预测其输出,对那些预测值与实际值不同的样本,提高其权重,由此形成第二棵决策树。重复以上过程,构建出不同权重的若干棵决策树。正向激励相关API:import sklearn.tree as stimport sklearn.ensemble as se# model: 决策树模型(一颗)model = st.DecisionTree转载 2020-07-08 06:05:06 · 806 阅读 · 0 评论 -
机器学习:线性回归模型的应用案例及核心API
线性回归输入 输出0.5 5.00.6 5.50.8 6.01.1 6.81.4 7.0...y = f(x)预测函数:y = w0+w1xx: 输入y: 输出w0和w1: 模型参数所谓模型训练,就是根据已知的x和y,找到最佳的模型参数w0 和 w1,尽可能精确地描述出输入和输出的关系。5.0 = w0 + w1 × 0.55.5 = w0 + w1 × 0.6单样本误差:根据预测函数求出输入为x时的预测值:y’ = w转载 2020-07-06 11:22:33 · 1481 阅读 · 0 评论 -
机器学习:如何解决模型数据预处理问题
机器学习概述什么是机器学习机器学习是一门能够让编程计算机从数据中学习的计算机科学。一个计算机程序在完成任务T之后,获得经验E,其表现效果为P,如果任务T的性能表现,也就是用以衡量的P,随着E增加而增加,那么这样计算机程序就被称为机器学习系统。自我完善,自我增进,自我适应。为什么需要机器学习自动化的升级和维护解决那些算法过于复杂甚至跟本就没有已知算法的问题在机器学习的过程中协助人类获得对事物的洞见机器学习的问题建模问题所谓机器学习,在形式上可这样理解:在数据对象中通过统计或推理的转载 2020-07-02 19:31:14 · 1803 阅读 · 1 评论 -
pandas核心数据结构---API
pandas基础pandas介绍Python Data Analysis Librarypandas是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。Pandas 纳入 了大量库和一些标准的数据模型,提供了高效地操作大型结构化数据集所需的工具。pandas核心数据结构数据结构是计算机存储、组织数据的方式。 通常情况下,精心选择的数据结构可以带来更高的运行或者存储效率。数据结构往往同高效的检索算法和索引技术有关。SeriesSeries可以理解为一个一维的数组,只是index名转载 2020-07-01 06:22:46 · 1996 阅读 · 0 评论 -
一条SQL查询语句是如何执行的:基础架构
我们经常说,看一个事儿千万不要直接陷入细节里,你应该先鸟瞰其全貌,这样能够帮助你从高维度理解问题。同样,对于 MySQL 的学习也是这样。平时我们使用数据库,看到的通常都是一个整体。比如,你有个最简单的表,表里只有一个 ID 字段,在执行下面这个查询语句时:mysql> select * from stu where ID=1;我们看到的只是输入一条语句,返回一个结果,却不知道这条语句在 MySQL 内部的执行过程。所以今天我们一起把 MySQL 拆解一下,看看里面都有哪些“零件”,希望借由这原创 2020-06-30 11:20:10 · 162 阅读 · 0 评论 -
利用Python合并多个CSV或者EXCEL文件
最近有个朋友想在杭州买套房子,让我帮忙分析下,就有接下来的一些事情了,怎么个分析思路呢?我现在还在思考中,后续打算分析完在来和大家交流。其实,买房现在来看还是稳赚不赔的买卖呀,有钱搞股票不如拿钱去买房,当然大佬除外。闲话不多说,随便写了个爬虫代码去链家上抓了些数据,当时有点傻,把每个区域都存了一份CSV文件,扔到一个CSV文件它不好吗?改几行代码就完事的,但就是不想改爬虫代码了,这不就来搞几行代码完成这个合并,闲话不多说,直接开搞。其实文件也不多,就9个文件,手动的复制粘贴也很快的就能搞定的,但是这个原创 2020-06-17 15:55:10 · 2694 阅读 · 3 评论 -
数据分析之----数值模型描述统计
数据分析DAY03处理普通文本读取文本:read_csv() read_table()方法参数参数解释filepath_or_buffer文件路径sep列之间的分隔符。read_csv()默认为为’,’, read_table()默认为’\t’header默认将首行设为列名。header=None时应手动给出列名。namesheader=None时设置此字段使用列表初始化列名。index_col将某一列作为行级索引。若使用列表,则设置复合索引。原创 2020-05-24 22:58:14 · 1226 阅读 · 1 评论 -
一张图带你了解Numpy基础知识
原创 2020-05-19 12:34:33 · 259 阅读 · 0 评论 -
玩转numpy---数据分析(一)
数据分析什么是数据分析?数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。使用python做数据分析的常用库numpy 基础数值算法scipy 科学计算matplotlib 数据可视化pandas 序列高级函数一、numpy概述Numerical Python,数值的Python,补充了Python语言所欠缺的数值计算能力。Numpy是其它数据分析及机器原创 2020-05-18 12:22:42 · 269 阅读 · 0 评论