数据分析与机器学习
清欢-欢欢
愿你三冬暖,愿你春不寒,愿你天黑有灯,下雨有伞,愿你路上有良人相伴。
展开
-
用拉格朗日法进行数据插补
用拉格朗日法进行数据插补代码如下# coding=utf-8import pandas as pdfrom scipy.interpolate import lagrangeinputfile = 'data/catering_sale.xls'outputfile = 'data/sales.xls'data = pd.read_excel(inputfile)# 过滤异常值,将值变为N原创 2017-07-28 10:51:52 · 2548 阅读 · 2 评论 -
初识机器学习-理论篇
机器学习就是利用计算机从历史数据中找出规律,并把这些规律用到对未来不确定场景的决策。与传统的数据分析相比,区别如下: - 传统数据分析的主体是人,依靠人的经验和知识水平;机器学习的主体是机器,抛弃对人的依赖。 - 机器学习数据量越大,找出的规律越精准。 - 从数据中找规律转换成数学规律和数学公式。 - 解决业务问题不同,数据分析,报告历史上发生的事情。机器学习,通过历史上发生的事情,来预测未来的事情。原创 2017-08-14 16:17:12 · 1414 阅读 · 3 评论 -
Pyhton数据挖掘-电力窃漏电用户的自动识别
概述本来主要是对博主在Python数据分析与挖掘实战的上第六章实践过程中所出现问题的总结,看本文的之前最好是看过这本书的第六章。问题一:采用anaconda环境下安装tensorFlow后,pycharm识别不了TensorFlow。情况是这样的,博主在首先安装好tensorFlow后,再安装keras成功后,pycharm识别不了TensorFlow。 然后设置python解析器路径,如图:原创 2017-08-06 13:42:10 · 4263 阅读 · 14 评论 -
python根据文章生成词云
哈哈,这次不按套路出牌,先直接上代码,首先要安装PIL,wordcloud,jieba。。我在安装的时候报VC9.0错误,根据错误返回的信息:error: Microsoft Visual C++ 9.0 is required. Get it from http://aka.ms/vcpython27到这个网站里面下载安装VC组件。分析下,path=r"C:/User/......."必须要有的,不然生成不了中文词云。alice_mask是结构图,也就是这只鸟,经过测试白底颜色鲜明的图才能生成结构清晰的词原创 2017-06-26 17:30:48 · 1617 阅读 · 2 评论 -
神经网络-感知器算法python代码实现
在上一篇我们介绍了神经网络感知器算法,现在我们用python代码实现感知器算法。# -*- coding: utf-8 -*-import numpy as npclass Perceptron(object): """ eta:学习率 n_iter:权重向量的训练次数 w_:神经分叉权重向量 errors_:用于记录神经元判断出错次数 """原创 2017-08-09 16:05:10 · 4250 阅读 · 0 评论 -
神经网络入门-感知器算法
w是每个神经元的权重,x是每个神经元的输入信号,进行矩阵点乘运算得到神经元的输入和,这个时候需要一个阈值来进行判断输出是1还是0。 当求和得到的z小于等于阈值的时候,输出为0,反之为1。感知器算法权重和阈值的训练其中,最困难的部分就是确定权重(w)和阈值(b)。目前为止,这两个值都是主观给出的,但现实中很难估计它们的值,必需有一种方法,可以找出答案。 这种方法就是试错法。原创 2017-08-08 19:33:48 · 2128 阅读 · 0 评论 -
用餐饮客户消费数据进行K-Means算法实战
概念对于连续属性,要先进行零-均值规范,在进行距离的计算。在K-Means算法中,一般需要度量样本间的距离,样本与簇之间的距离以及簇与簇之间的距离 数据现在有部分餐饮客户的消费数据见表方法R表示最近一次消费时间间隔,F表示消费频率,M表示消费总金额。 采用K-Means聚类算法,设定聚类个数为3,最大迭代次数为3,距离函数只能采用欧式距离代码与解释# -*- coding: utf-8 -*-原创 2017-08-01 16:10:39 · 10937 阅读 · 9 评论 -
聚类分析初识
实例举两个实际列子: 1. 如何通过对餐饮客户消费行为的测量,进一步评判餐饮客户的价值和对餐饮客户进行细分,找到有价值的客户群和需要关注的客户群 2. 如何合理对菜品进行分析,以便区分哪些菜品畅销毛利又高,哪些菜品滞销毛利又低。 聚类分析定义聚类分析是在没有给定划分类别的情况下,根据相似度进行样本分组的一种方法。是一种非监督的学习算法,划分的原则是组内距离最小化而原创 2017-08-01 12:49:09 · 881 阅读 · 0 评论 -
采用scikit-learn进行银行贷款拖欠数据分析
经过数据探索与数据预处理,得到了可以直接建模的数据。根据挖掘目标和数据形式可以建立分类与预测、聚类分析、关联规则、时序模式和偏差检测等模型,帮助企业提取数据中蕴含的商业价值,提高企业的竞争力原创 2017-07-31 15:42:12 · 2791 阅读 · 0 评论 -
anaconda下matplotlib画散点图、柱形图、折线图、饼图
import matplotlib.pyplot as pltyear = (1950, 1970, 1990, 2010)pop = (2.519, 3.692, 5.263, 6.972)plt.fill_between(year,pop,0,color='green')# 折线图# plt.plot(year, pop)# s散点图# plt.scatter(year, po原创 2017-07-21 11:30:42 · 12053 阅读 · 0 评论 -
利用pandas模块读取csv文件和excel表格,并用matplotlib画图
# coding=utf-8import pandas as pd# 读取csv文件 3列取名为 name,sex,births,后面参数格式为names=names1880 = pd.read_csv("names_1880.txt", names=['name', 'sex', 'births'])print names1880print names1880.groupby('sex原创 2017-07-26 10:32:11 · 34361 阅读 · 3 评论