- 博客(17)
- 收藏
- 关注
原创 写在前面:数据清洗
数据质量好的数据质量,应该满足“完全合一”完整性:数据是否存在空值,字段是否完善,是否有漏掉全面性:观察某一列的全部数值及特征值,是否存在单位、字段名与数值不匹配合法性:数据的类型、内容、大小的合法性。唯一性:数据是否存在重复记录问题1:缺失值在数据中有些年龄、体重数值是缺失的,这往往是因为数据量较大,在过程中,有些数值没有采集到。通常我们可以采用以下三种方法:删除:删除数据缺失的记录;均值:使用当前列的均值;高频:使用当前列出现频率最高的数据。比如我们想对df[‘Age’]中缺失的数
2020-09-13 17:14:57 292
原创 推荐系统算法:矩阵分解
矩阵分解推荐系统中存在着用户行为的稀疏矩阵,由于稀疏矩阵无法给用户进行商品推荐,因此考虑补全这些缺失值,并根据缺失值TOP-N对用户进行个性化推荐。可以对稀疏矩阵进行分解,假设有如下用户对电影的观影喜好:假设隐分类个数:3我们可以将评分矩阵分解为:User 矩阵和 Item 矩阵,User 矩阵代表用户对电影隐分类类别的喜好程度;item 矩阵代表各个电影都属于哪一类隐分类类别。如果可以分解,那么相乘必将得到完整的评分矩阵。User 矩阵为 X=[x1,x2,...,xN]X= [x_1,x_
2020-10-09 00:14:34 1607
原创 推荐系统框架及概述
推荐系统算法有哪些一、基于内容:基于商品的本身内容相似度进行推荐,用户喜欢内容1,推荐与内容1 相似的内容。静态的推荐,需要对物品具体内容进行打标签,适合解决冷启动问题,(新系统,新用户,新商品)二、协同过滤:基于用户的行为进行推荐。通过与用户相似用户喜欢的内容给用户进行推荐。(群体的智慧)动态的推荐,不需要对商品具体内容打标签,适合用户的个性化推荐。基于邻域的推荐方式:基于相似个体的推荐方式(邻域:越接近相似度越高)(1). ItemCF:推荐原理:基于商品间的相似度进行推荐,两
2020-09-13 20:59:42 731
原创 比赛实例 1 : Titanic 乘客是否幸存预测
数据加载import pandas as pdtrain = pd.read_csv('train.csv')test = pd.read_csv('test.csv')train.info()print(train.Name)可以发现,Age 和 Cabin 是缺失数据,Name 存在称谓信息可以使用,多项字符内容需要转化为可使用的标签。可视化分析#男女幸存差异import seaborn as snsimport matplotlib.pyplot as pltplt.rcP
2020-09-13 17:02:43 698
原创 Project 4:用户画像的建立
用户画像# 使用SimpleTagBased、NormTagBased、TagBased-TFIDF算法对Delicious2K数据进行推荐# 原始数据集:https://grouplens.org/datasets/hetrec-2011/# 数据格式:userID bookmarkID tagID timestamp用户画像的准则统一标识: 用户唯一标识是整个用户画像的核心给用户打标签:用户标签的4个维度基于标签指导业务(标签赋能):业务赋能的3个阶段用户
2020-09-13 16:38:09 364 1
原创 十大机器学习算法(五)——无监督聚类算法 EM 聚类算法(以及GMM)
无监督聚类学习 EM主要流程:初始化参数 —>> 观察预期结果 —>> 存在误差?重新估计参数极大似然估计
2020-09-09 17:04:19 957
原创 Project 3 :挖掘数据集中的关联商品
三种方式import pandas as pdimport numpy as npfrom efficient_apriori import apriori#加载数据data = pd.read_csv('Market_Basket_Optimisation.csv', header = None)data = data.fillna(0)#print(data)#将数据整理成Transaction列表transaction = []for i in range(data.shape[
2020-09-08 17:31:32 556
原创 十大机器学习算法(四)—— 关联算法(Apriori,FP-Growth)
关联算法基本概念支持度:每个商品(商品组合)在总体购物小票中的出现概率: Supporti=Countsales(i)Countall−salesSupport_i = \frac{Count_{sales(i)}}{Count_{all-sales}}Supporti=Countall−salesCountsales(i)置信度:当某一商品(商品组合) j 购买时,另一个其他商品(商品组合) i 会购买的概率: Confidence(i∣j)=Countsales(i,j)Coun
2020-09-08 17:25:46 3623
原创 Project 2 : 北京地铁数据处理及路径探寻
完成北京地铁路线搜寻使用搜寻策略完成如下项目:接收两个北京地铁站站点,得到两个站点间的优化路径。Please using the search policy to implement an agent. This agent receives two input, one is @param start station and the other is @param destination. Your agent should give the optimal route based on Beijin
2020-09-08 16:41:30 950
转载 十分钟了解 SQL
很多程序员视 SQL 为洪水猛兽。SQL 是一种为数不多的声明性语言,它的运行方式完全不同于我们所熟知的命令行语言、面向对象的程序语言、甚至是函数语言(尽管有些人认为 SQL 语言也是一种函数式语言)。我们每天都在写 SQL 并且应用在开源软件 jOOQ 中。于是我想把 SQL 之美介绍给那些仍然对它头疼不已的朋友,所以本文是为了以下读者而特地编写的:1、 在工作中会用到 SQL 但是对它并不完全了解的人。2、 能够熟练使用 SQL 但是并不了解其语法逻辑的人。3、 想要教别人 SQL 的人。本文
2020-09-07 16:59:52 193
转载 Python办公自动化:批量提取Excel数据
今天我们来讲解一个比较简单的案例,使用openpyxl从Excel中提取指定的数据并生成新的文件,之后进一步批量自动化实现这个功能,通过本例可以学到的知识点:openpyxl模块的运用glob模块建立批处理数据源:阿里云天池的电商婴儿数据(可自行搜索并下载,如果要完成进阶难度可直接将该数据Excel拷贝999次即可,当然这个拷贝可以交给代码来实现)需求说明初级难度:提取电商婴儿数据.xlsx中购买数buy_mount超过50的记录建立新的Excel表最后形成如下的表格:进阶难度:同一个文件
2020-09-07 13:37:09 6562 4
原创 Project 1:文章抄袭自动检测分析项目
Thinking :如何进行文本抄袭自动检测:预测文章风格是否和自己一致 => 分类算法根据模型预测的结果来对全量文本进行比对,如果数量很大,=> 可以先聚类降维,比如将全部文档自动聚成 k=25 类文本特征提取 => 计算TF-IDFTopN相似 => TF-IDF相似度矩阵中TopN文档编辑距离editdistance => 计算句子或文章之间的编辑距离自然语言的分词与关键词处理在数据分析时,不免接触到自然语言(string),要想对其进行分析,需要以下几
2020-09-07 00:33:08 884 2
原创 十大机器学习算法(三)—— 无监督 聚类算法 KMeans
KMeansKMeans属于无监督(即无标签)聚类算法,在不知道数据没有具体的划分标准时,通过物以类聚的方法,将相似数据放在一起。一、源码流程(一)首先随机生成一堆数据 [x,y][x,y][x,y],尝试将这些数据进行聚类import randomimport matplotlib.pyplot as pltpoints_num = 100random_x = [random.randint(-100, 100) for _ in range(points_num)]random_y =
2020-09-03 22:40:09 2747
原创 十大机器学习算法(一)—— 朴素贝叶斯分类器(Navie Bayes)
朴素贝叶斯分类器(Navie Bayes)一、原理:贝叶斯原理(基于条件概率、全概率公式的贝叶斯公式)已知类别概率:∑i=1nCi=1 \sum^n_{i=1}{C_i = 1} i=1∑nCi=1已知属性概率:∑j=1mAj=1 \sum^m_{j=1}{A_j = 1} j=1∑mAj=1求:在 AjA_jAj 组合发生时,CiC_iCi的概率。P(Ci∣A1⋯Am)=P(A1⋯Am∣Ci)⋅P(Ci)P(A1⋯Am)=∑i=1nP(A1⋯Am⋅Ci) P(C_i|A_1 \cdo
2020-09-02 18:23:20 1338
原创 UMVUE
写在前面考博时,对老师提出的UMVUE一直没有搞懂,今天搞懂它,顺便梳理下牵扯的统计学知识无偏估计量对于待估参数,不同的样本值就会得到不同的估计值。这样,要确定一个估计量的好坏,就不能仅仅依据某次抽样的结果来衡量,而必须由大量抽样的结果来衡量。对此,一个自然而基本的衡量标准是要求估计量无系统偏差。也就是说,尽管在一次抽样中得到的估计值不一定恰好等于待估参数的真值,但在大量重复抽样时,所得到的估计值平均起来应与待估参数的真值相同,换句话说,希望估计量的均值(数学期望)应等于未知参数的真值,这就是所谓无偏
2020-08-20 22:52:38 4660 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人