数据分析
天主极乐大帝
这个作者很懒,什么都没留下…
展开
-
pandas常见错误类型TypeError: bad operand type for unary ~: 'float'
TypeError: bad operand type for unary ~: ‘float’pandas报这个错误是因为数据中含有空值即NA值。将其删除就可以了代码如下import pandas as pdimport numpy as np#加载数据data=pd.read_excel('./qs.xlsx')#如何确定数据里面含有缺失值--缺失值检测#推荐使用insn...原创 2019-11-26 10:16:19 · 12058 阅读 · 0 评论 -
中国省市县完整数据
ssxList=[‘北京市’, ‘通县’, ‘东城区’, ‘西城区’, ‘崇文区’, ‘宣武区’, ‘朝阳区’, ‘丰台区’,‘石景山区’, ‘海淀区’, ‘门头沟区’, ‘房山区’, ‘通州区’, ‘顺义区’, ‘昌平区’, ‘大兴区’,‘怀柔区’, ‘平谷区’, ‘密云区’, ‘延庆区’, ‘北京市’, ‘天津市’, ‘蓟州’, ‘滨海新区(原塘沽区)’,‘滨海新区(原汉沽区)’, ‘滨...原创 2019-11-22 15:31:13 · 2951 阅读 · 0 评论 -
根据数据建立分析模型是什么意思
这是数据分析的一般思路。但是通常都是在建立分析模型前,一般都是有预先假设的,比如说我假设 销售人员的学历、工作经验、薪资待遇、年龄这几个方面会对其销售额产生影响。之后我就会根据我的假设来收集数据,然后针对数据进行分析,找出一个合适的数据模型,比如说是线性模型的的话 就用线性回归,如果是非线性模型的话,则建立相应的非线性模型。然后通过模型创建 可以验证假设中哪些是正确的,同时可以找出影响因素的影响...原创 2019-10-09 11:09:10 · 783 阅读 · 0 评论 -
队列和栈的区别
队列和栈是两种不同的数据结构。它们有以下区别:(1)操作的名称不同。队列的插入称为入队,队列的删除称为出队。栈的插入称为进栈,栈的删除称为出栈。(2)可操作的方式不同。队列是在队尾入队,队头出队,即两边都可操作。而栈的进栈和出栈都是在栈顶进行的,无法对栈底直接进行操作。(3)操作的方法不同。队列是先进先出(FIFO),即队列的修改是依先进先出的原则进行的。新来的成员总是加入队尾(不能从中间插...原创 2019-10-08 17:21:14 · 13885 阅读 · 0 评论 -
knn算法实现电影分类
KNN英文全称K-nearst neighbor,中文名称为K近邻算法,它是由Cover和Hart在1968年提出来的KNN算法原理:计算已知类别数据集中的点与当前点之间的距离;按照距离递增次序排序;选择与当前距离最小的k个点;确定前k个点所在类别的出现概率返回前k个点出现频率最高的类别作为当前点的预测分#-*-coding:utf-8-*-import numpy as ...原创 2019-10-08 17:05:35 · 3659 阅读 · 0 评论 -
pandas数据存储于读取
#-*-coding:utf-8-*-import pandas as pd#加载文本数据info=pd.read_table('./meal_order_info.csv',encoding='gbk',sep=',')#默认\t分割#print('info\n',info)#headers=info#index_col设置索引,如[0,1]是将第零列、第一列作为索引#nro...原创 2019-10-06 15:37:48 · 163 阅读 · 0 评论 -
基于线性回归房价预测散点图和折线图
回归是统计学中最有力的工具之一。机器学习监督学习算法分为分类算法和回归算法两 种,其实就是根据类别标签分布类型为离散型、连续性而定义的。回归算法用于连续型分布 预测,针对的是数值型的样本,使用回归,可以在给定输入的时候预测出一个数值,这是对 分类方法的提升,因为这样可以预测连续型数据而不仅仅是离散的类别标签。 回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示, 这种回归...原创 2019-09-29 14:33:09 · 3966 阅读 · 0 评论 -
米匡框架实现量化交易炒股
# 可以自己import我们平台支持的第三方python模块,比如pandas、numpy等。import pandas as pdimport numpy as npfrom sklearn.linear_model import LinearRegression # 线性回归算法正规方程求解# 在这个方法中编写任何的初始化逻辑。context对象将会在你的算法策略的任何...原创 2019-09-29 14:18:42 · 927 阅读 · 0 评论 -
数据分析pandas属性实现统计分析
import pandas as pd#加载数据detail = pd.read_excel("./meal_order_detail.xlsx")print("detail :\n",detail)print("detail 的列索引名称:\n",detail.columns)print("detail 的形状:\n",detail.shape)print("detail 数...原创 2019-09-26 15:20:25 · 357 阅读 · 0 评论 -
pandas数据处理分组聚合
import pandas as pdimport numpy as np# 加载数据users = pd.read_excel("./users.xlsx")print("users:\n",users)print("users 的列索引:\n",users.columns)print("users 的数据类型:\n",users.dtypes)# 根据班级分组、统计学员的...原创 2019-10-09 15:02:15 · 223 阅读 · 0 评论 -
无监督学习与监督学习的区别
1、什么是无监督学习?无监督学习是机器学习技术中的一类,用于发现数据 中的模式。利用 学习数据的分布或数据与数 据之间的关系被称作无监督学习。2、无监督学习代表算法:1、k-means算法(聚类算法)3、什么是监督学习? 监督学习描述的任务是:当给定输入x,如何通过在有标注输入和输出的数据上训练模型而能够预测输出y 1、通过带有标签的...原创 2019-10-09 16:00:55 · 1678 阅读 · 0 评论 -
前端HTML5CSS3基础知识点
day01HTML语言ctrl+B 将文字加粗ctrl+1 /2 /3 标题ctrl+shift + i 插入图片不是编程语言 编程语言都会有自己的语法结构 html语言不是编程语言 它是标记语言一组标签 --》特定功能—》浏览器里的渲染引擎html hyper 超 Text 文本 markup 标记 language语言文本 .txt 文字 字符 ...原创 2019-03-20 22:26:19 · 992 阅读 · 0 评论 -
python二分查找
#二分查找a=[2,7,1,3,5,8,3,6,7,15,34]for i in range(len(a)-1): for j in range(i+1,len(a)): if a[i]>a[j]: a[i],a[j]=a[j],a[i]print(a)while True: n=int(input('请输入一个数'))...原创 2019-10-17 22:04:36 · 299 阅读 · 0 评论 -
无监督学习和监督学习的区别
1、什么是无监督学习? 无监督学习是机器学习技术中的一类,用于发现数据 中的模式。利用 学习数据的分布或数据与数 据之间的关系被称作无监督学习。2、无监督学习代表算法: 1、k-means算法(聚类算法)3、什么是监督学习?监督学习描述的任务是:当给定输入x,如何通过在有标注输入和输出的数据上训练模型而能够预测输出y...原创 2019-10-10 21:39:57 · 3840 阅读 · 0 评论 -
算法中分类与聚类的区别?
算法中分类与聚类的区别?(1) 聚类分析研究如何在没有训练的条件下把样本划分为若干类;(2) 在分类中对于目标数据库中存在哪些类是知道的,要做的就是将每一条记录分别属于哪 一类标记出来 ;(3)与分类不同,无监督学习不依赖预先定义的类或带类标记的训练实例,需要由聚类学习 算法自动确定标记,而分类学习的实例或数据样本有类别标记。...原创 2019-10-10 21:33:34 · 470 阅读 · 0 评论 -
朴素贝叶斯算法和逻辑回归算法的区别?
朴素贝叶斯算法和逻辑回归算法的区别?1.两种算法的模型不同:Naive Bayes是一个生成模型,在计算P(y|x)之前,先要从训练数据中计算P(x|y)和P(y)的概率,从而利用贝叶斯公式计算P(y|x)。 Logistic Regression是一个判别模型,它通过在训练数据集上最大化判别函数P(y|x)学习得到,不需要知道P(x|y)和P(y)。2.两种算法建...原创 2019-10-10 09:28:33 · 1986 阅读 · 0 评论 -
分类与数值预测是预测问题的两种主要类型
分类与数值预测是预测问题的两种主要类型原创 2019-10-09 16:25:53 · 1590 阅读 · 0 评论 -
利用tensorflow语法实现线性回归
#-*-coding:utf-8-*-import tensorflow as tf#面向对象class MyLinearRegression(object): def __init__(self): self.leaning_rate=0.1 def build_data(self): """ 构建数据--y=...原创 2019-09-24 21:26:04 · 174 阅读 · 0 评论 -
深度学习tensorflow变量op
#-*-coding:utf-8-*-import tensorflow as tf#创建变量op#初始化的值intit_value_1=tf.random_normal( dtype=tf.float64, shape=[2,2], stddev=1.0, mean=0.0)intit_value_2=tf.random_normal( d...原创 2019-09-24 21:12:25 · 514 阅读 · 0 评论 -
jieba 分词的三种模式
Jieba 是一个强大的分词库,完美支持中文分词,做为最好的 Python 中文分词组件。 安装:pip install jieba 特点:支持三种分词模式:1、精确模式,试图将句子精确的分开,适用于文本分析。cut_all参数默认为False,所有使用cut方法时默认为精确模式。import jieba strings = '今天天气真好' seg = jieba.cut...原创 2019-09-19 19:47:13 · 10588 阅读 · 0 评论 -
数据分析基于朴素贝叶斯的书籍评价信息分类
#-*-coding:utf-8-*-import pandas as pdimport jiebafrom sklearn.feature_extraction.text import CountVectorizerdata=pd.read_csv('./data.csv',encoding='ansi')#确定特征值与目标feature=data.loc[:,'内容 ']t...原创 2019-09-19 19:18:53 · 235 阅读 · 0 评论 -
数据分析数据标准化
#-*-coding:utf-8-*-import numpy as npimport pandas as pd#标准化数据的目的:将数据转化为同一量级,避免量级对结果产生不利的影响#三种方式#离差标准化--(x-min)/(max-min)#将数据转换化为【0,1】之间去def min_max_sca(data): """ :param data: 传...原创 2019-09-17 10:21:23 · 547 阅读 · 0 评论 -
数据分析缺失值处理
#-*-coding:utf-8-*-import pandas as pdfrom numpy import np#加载数据data=pd.read_excel('./qs.xlsx')#如何确定数据里面含有缺失值--缺失值检测#推荐使用insnull+sum来判断缺失值print(data.isnull.sum())#有值false,无值trueprint(data.nt...原创 2019-09-16 15:39:20 · 604 阅读 · 0 评论 -
数据分析数据拼接案例
#-*-coding:utf-8-*-import pandas as pd#加载数据detail_0=pd.read_excel('./meal_order_detail.xlsx',sheetname=0)detail_1=pd.read_excel('./meal_order_detail.xlsx',sheetname=1)detail_2=pd.read_excel('....原创 2019-09-16 11:43:39 · 284 阅读 · 0 评论 -
pandas数据存储于读取
#-*-coding:utf-8-*-import pandas as pd#加载文本数据info=pd.read_table('./meal_order_info.csv',encoding='gbk',sep=',')#默认\t分割#print('info\n',info)#headers=info#index_col设置索引,如[0,1]是将第零列、第一列作为索引#nr...原创 2019-09-11 15:01:56 · 271 阅读 · 0 评论 -
pyplot箱线图
#-*-coding:utf-8-*-import numpy as npimport matplotlib.pyplot as pltres=np.load('./国民经济核算季度数据.npz')columns=res['columns']values=res['values']#1、创建画布plt.figure()#2、绘图#给定x的时候,x要是一个整体元素x=(va...原创 2019-09-11 11:42:49 · 596 阅读 · 0 评论 -
ufunc函数的广播机制
广播(broadcasting)是指不同形状的数组之间执行算术运算的方式。需要遵循4个原则。1:让所有输入数组都向其中shape最长的数组看齐,shape中不足的部分都通过在前面加1补齐。2:输出数组的shape是输入数组shape的各个轴上的最大值。3:如果各个输入数组的对应轴的长度相同或者其长度为1时,这样的数组之间能够用来计算,否则 出错。4:当输入数组的某个轴的长度为1时,沿着此轴...原创 2019-09-09 16:26:21 · 712 阅读 · 0 评论 -
numpy数组基础语法
"""numpy 是一个科学计算库,核心---多维数组-ndarray(数组)ndarray数据存储方式和list不一样ndarray是一块整体的内存来存储数据存储风格---两种方式C F方式C 按行存储F按列存储"""#数组属性"""ndim ---维度ndim维度ndim维度shape ---形状shape形状shape形状size ---元素个数size元素个数s...原创 2019-09-08 19:44:56 · 246 阅读 · 0 评论 -
基于朴素贝叶斯的书籍评价信息分类
1 中文文本数据集预处理 假设现在需要判断一封邮件是不是垃圾邮件,其步骤如下: (1) 数据集拆分成单词,中文分词技术; (2) 计算句子中总共多少单词,确定词向量大小; (3) 句子中的单词转换成向量,BagofWordsVec; 计算 P(Ci),P(Ci|w)=P(w|Ci)P(Ci)/P(w),表示 w 特征出现时,该样本被分为 Ci 类的条 件概率; 判断 P...原创 2019-09-19 19:52:47 · 445 阅读 · 0 评论 -
贝叶斯公式
设Ω为试验 E 的样本空间,A 为 E 的事件,如果有 k 个互斥且有穷个事件,即 B1、B2、....、Bk 为Ω的一个划分,且 P(B1)+P(B2)+...+P(Bk)=1,P(Bi)>0(i=1,2,...,k),则: P(A):事件 A 发生的概率; P(A∩B):事件 A 和事件 B 同时发生的概率; P(A|B):事件 A 在时间 B 发生的条件下发生的概率; ...原创 2019-09-19 19:56:26 · 151 阅读 · 0 评论 -
数据分析词数统计和词的重要程度统计
1、词数统计代码#-*-coding:utf-8-*-import pandas as pdimport numpy as npimport jiebafrom sklearn.feature_extraction.text import CountVectorizer#自己构建文章content=['This i is the first document.'...原创 2019-09-19 20:09:08 · 477 阅读 · 0 评论 -
深度学习tensorflow框架的张量
#-*-coding:utf-8-*-import tensorflow as tf#默认不进行转化a=tf.constant(3.0,dtype=tf.float32)c=tf.constant([[3.0,4.0],[5.0,7.0]],dtype=tf.float32)b=tf.constant([3.0,4.0],dtype=tf.float32)#张量的形状与np....原创 2019-09-24 21:06:10 · 158 阅读 · 0 评论 -
深度学习tensorflow框架的会话
1、什么是会话?一个运行 TensorFlow operation 的类。tensorflow的底层是c++实现的,而上层调用使用的是python,所以在使用的时候中间环节需要使用到会话来作为中介,使用python来调用c++代码。2、会话完整流程1.会话初始化2.会话执行op3.关闭会话3、placeholder起到占位的作用,与feed_dict在运行时共同使用,在运行时feed...原创 2019-09-24 21:02:30 · 186 阅读 · 0 评论 -
人工智能tensorflow图的可视化
1、首先要序列化数据import tensorflow as tf#定义op#op名称op指令空间内是唯一的,如果op名字相同,会给后面的依次加索引#a=tf.constant(3.0,name='a')b=tf.constant(4.0,name='b')d=tf.constant(4.0,name='d')c=tf.add(b,d)#c=a+b#不建议这么使用2...原创 2019-09-24 20:57:20 · 373 阅读 · 0 评论 -
深度学习tensorflow数据流图基础知识点
一、深度学习与机器学习区别(一)特征提取方面 1、机器学习的特征工程步骤是要靠手动完成的,而且需要大量领域专业知识 深度学习通常由多个层组成,它们通常将更简单的模型组合在一起,通过将数 据从一层传递到另一层来构建更复杂的模型。通过大量数据的训练自动得到模型,不需 要人工设计特征提取环节。 2、深度学习算法试图从数据中学习高级功能,这是深度学习的一个非常独特的部 分。...原创 2019-09-24 20:44:33 · 1377 阅读 · 0 评论 -
利用米筐量化回测平台实行量化炒股
1、主要属性2、代码# 可以自己import我们平台支持的第三方python模块,比如pandas、numpy等。import pandas as pdimport numpy as npfrom sklearn.linear_model import LinearRegression#线性回归算法正规方程求解# 在这个方法中编写任何的初始化逻辑。contex...原创 2019-09-21 21:29:03 · 5562 阅读 · 1 评论 -
基于线性回归的波士顿房价预测
折线图代码#-*-coding:utf-8-*-import pandas as pdimport numpy as npimport matplotlib.pyplot as plt#加载数据from sklearn.datasets import load_bostonfrom sklearn.model_selection import ...原创 2019-09-20 23:14:48 · 2256 阅读 · 0 评论 -
数据分析Python:sklearn数据预处理中fit(),transform()与fit_transform()的区别
Fit():Method calculates the parameters μ and σ and saves them as internal objects.解释:简单来说,就是求得训练集X的均值啊,方差啊,最大值啊,最小值啊这些训练集X固有的属性。可以理解为一个训练过程Transform():Method using these calculated parameters app...原创 2019-09-20 20:40:41 · 411 阅读 · 0 评论 -
KNN算法原理与自实现电影分类
1、KNN简介KNN英文全如称果给定 ,中文名称为K最近邻算法,它是由Cover和Hart在1968年提出 来的作为相似性度量的距离函数一般满足下列性质: 注:这里,X,Y和Z是对应特征空间中的三个点 假设X,Y分别是N维特征空间中的一个点,其中d(X,Y)表示相应的距离函 数,它给出了X和Y之间的距离测度 2、KNN原理1、计算已知类别数据集中的点与当前点之间的距...原创 2019-09-19 20:35:25 · 1029 阅读 · 1 评论 -
数据分析——朴素贝叶斯原理示意图
原创 2019-09-19 20:11:10 · 866 阅读 · 0 评论