![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据挖掘和统计建模
huxuanlai
大数据架构师,算法建模工程师,河南研发和信用提升志愿者。
展开
-
汽车产业链SCP分析框架-湖北
原创 2021-07-18 17:50:52 · 234 阅读 · 0 评论 -
疫情期北京融资信息分析---疫情对北京社会经济影响分析---科技战疫·大数据公益挑战赛---2020北京数据开放创新应用大赛
目录1 北京金融疫情1.1 宏观1.1.1. 央行“放水”1.1.2 疫情对三驾马车的影响1.2 北京国企和大民企融资1.2.1 金融债1.2.2短期融资券-疫情防控债1.2.3 中期票据-疫情防控债1.2.4同业存单-防疫专项1.2.5 2020年同业存单发行额度1.2.6 2020北京地方政府债1.2.7 互联网公司-ABN疫情防控债1.2.8 市属企业上市平台融资1.2.9 北京控股的债券发行和债券担保平台1.2.10 北京市重大项目..原创 2020-06-29 18:52:32 · 3481 阅读 · 0 评论 -
R语言parallel包并行函数内共享变量写操作的替代方法
require(data.table)require(forecast)require(parallel)mats <- data.table(x <- c(1:45))mats$stmoney_rec<-0mats$stmoney_sec1<-0mats$stmoney_sec2<-0mats$stmoney_sec3<-0cl.cores...原创 2018-11-05 15:37:31 · 1006 阅读 · 0 评论 -
客户价值度和活跃度建模
客户价值度和活跃度建模目录1. 活跃度模型1.1 概念和计算方法1.2 分类和解释1.3 模型实现步骤2. 价值度模型2.1 概念和计算方法2.2 价值度分类2.3 结果解释和营销建议2.4 模型实现步骤1. 活跃度模型1.1 概念和计算方法概念:活跃度用来度量客户与公司交互程度。用加权因子分析法来做活跃度计算。因子:用xi 表示, (负相...原创 2018-07-25 16:52:24 · 9055 阅读 · 1 评论 -
用犯罪分析软件CrimeStat做热点图、层次空间聚类图、时空移动平均图
1. 时空移动平均图:用于发现移动作案的犯罪规律 (crimestat/空间建模/时空分析/时空移动平均)2. 层次空间聚类:用于发现集中作案的犯罪地点。 (crimestat/空间建模/插值/最近邻层次空间聚类)3. 热点图:用于发现集中作案的犯罪地点。(arcgis/spatial analyst tools/密度分析/核密度估计)地图底图和各类型犯罪数据是美国司法研究所N...原创 2018-05-10 10:23:38 · 7506 阅读 · 4 评论 -
人口、人才统计和公安领域的分析需求
1. 人口统计:主要是人口预测和人口迁移;然后是人口变化导致的社会经济系统的变化,需要系统动力学分析;然后是人口带来的资源需求和规划。参考:书籍《人口和就业统计分析技术》,国家统计局人口和就业统计司和人大编。2. 人才统计:涉及模型是:人才评价指标,人才项目评审指标,人才项目过程绩效指标,人才总体竞争力指标体系,人才寻找方法等。涉及部门:中组部,市委人才办,中国人事科学研究院,中国人才促进会,国家...原创 2018-02-28 11:04:51 · 1491 阅读 · 0 评论 -
海关的数据挖掘需求
全国海关通关一体化的大背景下,为了能够加快通关速度又能保障安全通关,启用全国海关风险控制中心和税收征管中心,在全国口岸所有运输方式进口的《中华人民共和国进出口税则》全部章节商品,使用“一次申报,分布处置”通关作业流程和企业自报自缴税款,税收征管要素海关审核后置等改革措施。 风险防控中心分析货物是否存在禁限管制、侵权、品名规格数量伪瞒报等安全准入风险并下达布控...原创 2019-11-29 14:01:56 · 697 阅读 · 0 评论 -
客户消费行为预测的3种计算方法
用户潜在消费行为预测:数据:用户行为表,购物篮表,购物表中数据。计算方法:方法一:关联规则算法来建立业务预测模型。根据主需求品类先分组,找到每个分组下的频繁项集,根据已知的消费行为找出频繁项集中配对的潜在需求。方法二:用word2vec算法构建业务预测模型。word2vec算法包含word顺序信息,word顺序在消费行为预测中可理解为消费品类顺序。把用户消费的具体商原创 2017-11-30 14:38:18 · 9310 阅读 · 0 评论 -
bot机器人账号八大类特征分析---识别问题账号
账户数据本身的可分析性是分析算法的基础。通过分析数据特征来为建模做准备。账户数据特征通常分为活动行为特征,社团特征,发文特征、语法语义特征、时空特征等:1. 活动特征:发文数量,发文被回复的比例,连续发文的平均时间间隔,用户在站点的发文级别,本站点首发的天数,通过发文回复关系得出的聚集系数和互惠性,两人之间在一个共同讨论中的次数。2. 社团特征:对普通用户的差评比例,被举报的比例,被删比例原创 2017-12-01 10:32:54 · 3139 阅读 · 0 评论 -
用python pulp的线性规划方法计算满足营养所需的最少食物
1. 问题描述食物的单位成本巧克力松糕: $0.50 (每片)巧克力冰激凌:$0.20 (每份)可乐: $0.30 (每瓶)菠萝芝士蛋糕:$0.80 (每片)每天的食物需求500 卡路里6 盎司巧克力10 盎司糖8 盎司脂肪食物营养含量巧克力松糕:400 卡路里能量,3 盎司巧克力,2 盎司糖,2 盎司脂肪巧克力冰激凌(每份):200 卡原创 2017-05-10 14:00:36 · 1656 阅读 · 2 评论 -
正态性检验,多元线性和多项式回归,输出具体的回归函数
一、业务场景:1. 一个汽车销售公司,其客户来店消费金额是否符合正态分布?答:这个问题可以抽象为统计学的统计推断中的假设检验部分的正态性检验。2. 如何模拟这些数据的函数特征,怎么看拟合的好不好?答:这是个拟合问题,视情况用线性拟合和多项式拟合来拟合。通过拟合打分看拟合效果。3. 这个具体函数能否给出来?答:可以通过二、下面分四部分来用代码解决上述问题1. 对数原创 2017-07-12 15:04:20 · 1339 阅读 · 0 评论 -
用stanford nlp的classfier组件的Java API做文本分类
预处理:找到classfier组件的类源代码ColumnDataClassifier.java,将其makeClassifier函数中return lc;改为this.classifier = lc;return lc;将改后的类作为自定义类,比如改为StanfordClassifier.java,然后加入开发环境自己设定的package中。环境准备:请确定自己原创 2017-05-31 11:17:00 · 1262 阅读 · 1 评论 -
Amazon AWS上Tensorflow+GPU+CUDA 8+cuDNN 5+OpenBLAS配置
//环境:Amazon AWS g2.2xlarge实例,Ubuntu 16.04, python3.5, Nvidia cuda 8, Tensorflow//安装Python3和Tensorflow方法:sudo apt-get install -y python3-pipsudo pip3 install -y tensorflowsudo pip3 install -y t原创 2017-04-20 15:10:51 · 1195 阅读 · 0 评论 -
用scikit-learn和jieba支持中文文本特征提取和分类的测例
注意:安装jieba用此命令:easy_install jieba。pip install jieba有时不能正确安装。中文情况下analyzer='word'参数需要带上,vocabulary=cv.vocabulary_这样的参数是为了使测试集和训练集特征数对齐代码:---------from time import timeimport sysimport原创 2017-03-28 18:10:42 · 4222 阅读 · 0 评论 -
BLAS线性代数库和变种
BLAS库和变种:-------------------------------------BLAS:原生Fortran-style,是一个接口定义规范不是实现。Netlib BLAS:BLAS的默认实现。CBLAS: Netlib BLAS的c接口GotoBLAS2:2010年已经不维护。ATLAS:可自动调优的BLAS实现。速度不太好。math-atlas在github原创 2017-03-08 14:26:28 · 1412 阅读 · 0 评论 -
Apache SAMOA on Flink试用
apt-get install -y mavenapt-get updateapt-get install -y git openjdk-7-jdk vim mavenwget http://archive.apache.org/dist/flink/flink-0.10.2/flink-0.10.2-bin-hadoop2.tgztar -xzvf flink-0.10.原创 2017-03-02 15:04:05 · 746 阅读 · 0 评论 -
Spark Kmeans网络流量异常侦测Demo
参考资料:OReilly的《Advanced Analytics with Spark》第五章Anomaly Detection in Network Traffic with K-means clustering附属代码主要来自:https://github.com/sryza/aas/blob/1st-edition/ch05-kmeans/src/main/scala/com/cloud原创 2017-03-02 11:03:49 · 1856 阅读 · 0 评论