- 博客(37)
- 资源 (2)
- 收藏
- 关注
原创 python-numpy实战
1.Numpy库2.Array3.Array数组操作4.矩阵基本操作5.矩阵的创建与初始化6.常用函数案例7.排序与索引8.实例
2017-09-28 16:48:56 493
原创 机器学习-推荐系统
1.推荐系统应用2.推荐系统要完成的任务3.相似度计算4.基于用户的协同过滤算法5.基于物品的协同过滤算法7.隐语义模型8.隐语义模型求解9.模型评估标准10.使用Surprise库建立推荐系统12.Suprise库使用方法13.得出商品推荐结果14.使用Tensorflow构造隐语义模型15.模型架构16.损失函数定义17.训练网络
2017-09-28 16:38:57 517
原创 自然语言处理Word2Vec词向量模型
1.自然语言处理与深度学习2.语言模型3.N-gram模型4.词向量5.神经网络模型6.Hierarchical Softmax7.CBOW模型实例8.CBOW求解目标9.梯度上升求解10.负采样模型
2017-09-28 16:14:57 1464
原创 机器学习-支持向量机(SVM)
1.支持向量机要解决的问题2.支持向量机求解目标3.支持向量机目标函数求解方法4.支持向量机求解例子5.支持向量机的作用6.软间隔效果7.支持向量机中核函数作用8.应用SMO算法求解支持向量机9.多类别分类问题
2017-09-28 16:13:19 946
原创 机器学习-集成算法
1.集成算法思想2.Xgboost基本原理3.Xgboost目标函数推导4.Xgboost求解实例5.Xgboost库安装6.Xgboost实例演示7.Adaboost算法概述
2017-09-28 16:09:27 264
原创 技术经济-不确定性分析
不确定性分析与风险评价1. 盈亏平衡分析2. 敏感性分析3. 风险分析说明:以计算和分析各种不确定因素的可能变化对项目经济效益影响程度为目标的经济分析方法必要性:评价采用数据与未来实际发生数据存在偏差 不同因素的变化对项目收益的影响不同 找寻相互可行/不可行的临界点不确定性
2017-09-24 00:11:03 728
原创 多协议接口性能测试
1.接口性能测试的目标及范围2.常见接口协议3.理解https协议4.实战jmeter如何进行https协议接口5.ftp协议分析6.实战jmeter如何进行ftp协议接口测试7.性能测试用例及测试报告设计
2017-09-23 14:21:06 455
原创 numpy-数组对象ndarray
Numpy是一个开源的Python科学计算基础库1.一个强大的N维数组对象ndarray2.广播功能函数3.整合c/c++/fortran代码的工具4.线性代数,傅里叶变换,随机数生成等功能NumPy是SciPy,Pandas等数据处理或科学计算库的基础NumPy的引用:import numpy as np#引入模块的别名N维数组对象:ndarray
2017-09-18 13:37:15 1614
原创 MapReduce架构
主从结构-主节点:只有一个:JobTracker-从节点:有很多个:TaskTrackersJobTracker负责:-接收客户提交的计算任务-把计算任务分给TaskTrackers执行-监控TaskTracker的执行情况TaskTrackers负责:-执行JobTracker分配的计算任务
2017-09-18 13:23:22 456
原创 HDFS架构
主从结构-主节点,只有一个:namenode-从节点,有很多个:datanodesnamenode负责:-接收用户操作请求-维护文件系统的目录结构-管理文件与block之间关系,block与datanode之间的关系datanode负责:-存储文件-文件被分成block存储在磁盘上-为了保证数据安全,文件会有多个副本
2017-09-18 13:19:28 429
原创 女性消费-21世纪最大的市场蛋糕
女性消费,21世纪全球最大的市场蛋糕我不确定你为何阅读此书,但我可以肯定的是——以下数据绝对不会撒谎:化妆品、服装、鞋包、珠宝首饰98%的购买决策由女人直接作出;女性掌控94%的家居装饰支出,比如照明、家纺、甚至涂料;女性负责91%的家用消费品购买,比如沐浴露、洗发水、洗衣液等;91%的房屋买卖受女性影响;92%的度假、89%的银行新开户、80%以上的医疗保险、保健品的
2017-09-17 23:30:07 317
原创 品牌女鞋行业消费者定量研究报告
研究目的:品牌女鞋行业消费者定量研究报告研究区域:广州,上海调查方法:CATI(计算机辅助电话问卷调查)样本量:品牌女鞋消费者300样本/城市*2 = 600样本调查对象:一年内购买过品牌女鞋的女性消费者年龄:25-36岁为主学历:中等,大专居多职业:普通白领,教育工作者为主收入:个人3000-6000元/月 家庭5000-12000元/月一:品牌女鞋消费者状态
2017-09-17 22:13:41 586
转载 Python爬虫利器一之Requests库的用法
Python爬虫利器一之Requests库的用法前言之前我们用了 urllib 库,这个作为入门的工具还是不错的,对了解一些爬虫的基本理念,掌握爬虫爬取的流程有所帮助。入门之后,我们就需要学习一些更加高级的内容和工具来方便我们的爬取。那么这一节来简单介绍一下 requests 库的基本用法。注:Python 版本依然基于 2.7官方文档以下内容大多来自于
2017-09-17 21:53:58 394
原创 深度学习基础-决策树应用(python实现)
Python机器学习的库-scikit-learn1特性:简单高效的数据挖掘和机器学习分析对所有用户开放,根据不同需求高度可重用性给予Numpy,SciPy和matplotlib开源覆盖问题领域:分类(classfication),回归(regression),聚类(clustering)降维(dimensionality reduction)模型选择(model
2017-09-17 15:07:58 568
原创 深度学习基础-决策树
理论一:机器学习中分类和预测算法的评估 1.准确率 2.速度 3.强壮性 4.可规模性 5.可解释性二:什么是决策树/判定树(decision tree) 判定树是一个类似于流程图的树结构,其中,每个内部节点标识在一个属性上的测试,每个分支代表一个属性输出,而每个树节点代表类或类分布,树的最顶层是根节点2.机器学习中分类方法
2017-09-17 11:33:00 1425
原创 matplotlob-直方图
plt.hist(x,bins=10,color='red',normed=True)#normed是否标准化,取决于纵坐标是频率#1-D直方图,2-D直方图 plt.hist2d(x,t,bins=10) 双变量的直方图作业:随机生成2000个数据,均值为10,方差为3绘制两个直方图,bins分成10和50,normed分别为true和false随机生成x和y,分别2000个
2017-09-17 11:20:57 617
原创 matplotlib-条形图
概念以长方形的长度为变量的统计图像用来比较多个项目分类的数据通常利用与较小的数据集分析例如不同季度的销量,不同国家的人口等import numpy as npimport matplotlib.pyplot as pltN = 5y = [10,20,30,40,78]index = np.arrage(N)p1=plt.bar(left=inde
2017-09-17 11:05:12 566
原创 统计学基础
统计专业技术人员应用统计方法,统计法规等有关理论和实践经验,根据不同要求进行数据描述,参数估计,并对数据进行定性和定量分析的English,根据统计及相关法律法规依法统计和处理统计。运用我国现行统计调查设计与管理,统计标准与分类,行业统计,专业统计,住户调查和价格统计知识,进行宏观经济分析和解决统计工作中实际问题的能力统计方法统计法规统计实务
2017-09-17 01:59:16 310
原创 matplotlib-折线图
折线图是用直线将各个数据连接起来组成的图形常用来观察数据随时间变化的趋势例如股票价格,温度变化,等等例子:函数图(二次曲线图)股票时间序列图-日期格式的转化import numpy as np import matplotlib.pyplot as pltx = np.linespace(-10,10,100)y = x**2plt.
2017-09-16 23:33:21 701
原创 matplotlib-散点图
六种基本图形1.散点图2.折线图3.条形图4.直方图5.饼状图6.箱线图散点图 1.概念2.实践3.作业代码import numpy as npimport matplotlib.pyplot as pltweight = [50,58,80,70,69,55]height =[170,180,178,177,16
2017-09-16 23:18:00 354
原创 数据预处理
1.数据初步观察2.索引的使用3.数据的筛选与合并4.数据的分组统计5.高级分组统计方法6.缺失值的处理7.缺失值处理代码演示8.数据采样技术9.异常值检测10.数据变换11.统计知识 a .重要的统计指标 b.如何比较数据的差异
2017-09-16 23:03:07 360
原创 numpy核心数据结构-ndarray
1.核心数据结构之ndarray2.数据文件的读写3.数组的拆分与合并4.访问数组元素的方法5.ufunc和broadcast
2017-09-16 22:58:29 692
原创 数据库数据采集总结
一个理想原则:1、经常变动的信息,应该通过埋点/日志的方式作为用户行为的一部分2、不经常变动的信息,可以导入进来作为维度表为什么需要采集数据库的数据? 1.理想情况下,对数据库数据的变更都可以在日志中提现 问题:缺少历史状态采集任务的负载会影响线上业务采集内容:用户行为用户行为相关实体补充用户表订单表商户表商品表...
2017-09-16 15:36:41 1888
原创 日志数据打印与采集总结
日志打印与采集:面临的挑战 1.文本日志的解析与解读 2.日志格式变更的向前向后兼容 3.日志的收集与传输 4.软件开发过程中的日志变更管理高质量的日志打印: 1.提高数据意识,与整个开发过程整合 2.日志应该尽量全和细致,存储廉价,数据宝贵 3.除与后端无交互的事件在客户端采集外,其余全部后端以日志形式采集,在这个过程
2017-09-16 15:19:37 867
原创 后端数据采集方案总结
采集原理:1.对数据按照要求进行处理:数据产生前/产生后,格式处理/内容处理2.将处理后的数据使用相应接口发送给数据处理/分析平台一:日志采集面临的挑战:文本日志的解析与解读日志格式变更的前后向兼容日志的收集与传输软件开发过程中的日志变更管理二:数据库采集面临的挑战:对生产环境的影响时效性无法满足缺乏历史状态三:第三方数据采集面临的挑战:
2017-09-16 14:47:52 4611
原创 python-operator模块
本模块主要包括一些python内部操作符对应的函数,主要包括几类:对象比较,逻辑笔记,算术运算和序列操作 操作 语法函数相加a + b add(a, b)字符串拼接seq1 + seq2concat(seq1,
2017-09-15 15:24:47 714
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人