数据分析
半九拾
凡你能说的,你说清楚。凡你说不清楚的,留给沉默。
展开
-
[DIP]如何提取文件中的公章,并识别其朝向是否准确
任务描述,我们需要知道,我们盖在文件上的红章是否是端正的。需要解决的问题:1、图章的识别2、图章的定位3、图章的方向判定思路:图章基本上是红色的,我们先根据颜色提取可能的图章区域。当然,假如文档中,还有其他红色的区域,这一步都会提取出来。img = cv2.imdecode(np.fromfile("jingshanshi_muti_stamp.png", dtype=np.uint8), -1)def extract_red(img): ''''使用inRa原创 2020-09-04 17:38:18 · 2834 阅读 · 4 评论 -
【ML】决策树(decesion Tree)从入门到放弃再到掌握
希望写一篇关于决策树的总结,对自己所学做一个梳理.诚盼各位大佬不吝赐教。一切为了学习,一切为了面试,一切为了成长,一切为了梦想。人类做决策的时候,往往基于一些经验或者条件,比如我开始写这篇文章之前,我做了这么一些判断:1、我是否一心想要做工程师?——>是(执行下一步)/否(放弃写博客)2、我是否需要写一篇博客来加深一下关于决策树的印象?——> 是(执行下一步)/否...原创 2019-04-08 16:39:03 · 3305 阅读 · 0 评论 -
影片推荐系统思考以及用spark.mllib.ALS实现最简单的推荐
影片推荐系统思考1、用户信息的补充和处理背景:智能电视通过机顶盒向用户分发电视节目。事先采集的用户信息及其有限。且电视节目的用户大多以家庭为单位,用户画像也相应呈现出家庭的特征,各项属性,如年龄,性别,学历,等等特征都是不固定的。如何扩展有限的用户特征?方法1:利用用户在办理开通业务时候的登记号码,可以提取用户所在的区域。为方便描述,在本文中,定义该属性名为 AREA。方法2:另外,通过...原创 2019-01-07 11:36:43 · 1446 阅读 · 0 评论 -
统计学知识梳理
统计学大体可以分为两类: 描述性统计学:希望在不告诉别人所有数据的情况下介绍这些数据的情况。 推论统计学:从总体中获得一些样本,利用样本的数学计算,推断出总体的情况。机器学习、数据挖掘、数据分析领域离不开统计学。以前学习统计的时候,只是为了应付考试,很多知识都是靠死记硬背。考试过后,这些东西慢慢的就忘记了。最近重新回顾统计基础知识,感觉很多细节还是值得注意的。统计学的主要知识基本包括:...原创 2018-10-25 22:10:42 · 864 阅读 · 0 评论 -
如何判断两条线(轨迹)的重叠区域
转载于:http://www.cnblogs.com/naaoveGIS/。1.背景 假设有两条轨迹,一条是预定轨迹,一条是实际轨迹,分别为L1、L2。L1由点(A1、A2、A3、…、AN)组成,L2由(B1、B2、B3、…、BM)组成。现在给出了一个容差范围,即L2上的点能与L1这条预定路线的垂直容差范围Range,求L2上满足要求的实际点。这个需求我们实际可以分为两种情况来考虑,一种...转载 2018-09-17 10:59:32 · 13444 阅读 · 0 评论 -
数据分析基本技巧及python实现(一)
该文总结数据分析常用手法,在代码中用注释的形式给出必要的阐述。需要安装包:numpy、scipy、numpy、pandas、sklearn检查数据是否符合某项分布#检查数据是否符合正态分布##构建正态分布数据In [1]: import numpy as npIn [2]: import scipy.stats as ssIn [3]: norm_dist = ss.nor...原创 2018-08-13 16:33:47 · 683 阅读 · 1 评论 -
数据分析基本技巧总结-特征工程(二)
特征工程特征工程包括数据预处理,特征选择数据清洗(特征预处理)异常值的识别:#判断是否空值df.isnull()#是否重复df.duplicated()#四分位上下界的方法判定异常值(见下文)异常值处理:1、丢弃:#dropna 默认axis= 0 表示丢弃NaN和None的行,#axis= 1表示丢弃列,subset可指定特定丢弃的属性df.d...原创 2018-08-15 17:33:41 · 885 阅读 · 0 评论 -
python 数据合并(merge and concat)
pandas concat & merge 用法merge 方法pandas.merge 根据一个或多个键将不同的DataFrame 的行连起来(跟SQL 的连接类似)。 官方文档:pandas.DataFrame.merge 先看例子:df1 = pd.DataFrame({'key':['b','b','a','c','a','a','b'],'data1':range...原创 2018-08-07 14:56:57 · 3233 阅读 · 0 评论 -
python 时间序列
时间数据基本处理方法时间数据的意义一般有以下几种:时间戳固定时期时间间隔 python 中处理时间的包:datetime、time、calendardatetime以毫秒的形式储存日期和时间。 两个datetime对象之间的时间差为datetime.timedelta datetime 加上或减去datetime.timedelta,产生新的时间对象。In [4]: ...原创 2018-08-14 14:23:16 · 1213 阅读 · 0 评论