tuntunwang
码龄12年
关注
提问 私信
  • 博客:737,484
    社区:10,698
    问答:4,390
    752,572
    总访问量
  • 286
    原创
  • 695,565
    排名
  • 121
    粉丝
  • 0
    铁粉

个人简介:理解透彻,信手拈来。

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:贵州省
  • 加入CSDN时间: 2012-09-15
博客简介:

wtt561111的专栏

博客描述:
有点痴
查看详细资料
个人成就
  • 获得299次点赞
  • 内容获得86次评论
  • 获得450次收藏
  • 代码片获得103次分享
创作历程
  • 1篇
    2020年
  • 13篇
    2019年
  • 2篇
    2018年
  • 24篇
    2017年
  • 86篇
    2016年
  • 85篇
    2015年
  • 84篇
    2014年
成就勋章
TA的专栏
  • 算法
    3篇
  • 数据挖掘
    30篇
  • 推荐系统
    8篇
  • 数据结构
    14篇
  • spark
    23篇
  • hadoop
    7篇
  • scala
    4篇
  • 神经网络
    12篇
  • 模式识别
    4篇
  • Python
    6篇
  • linux
    30篇
  • Hbase
    2篇
  • docker
    1篇
  • 云
    1篇
  • android
    10篇
  • 小知识
    27篇
  • jsp
    32篇
  • mysql
    6篇
  • webservice
    8篇
  • xml
    2篇
  • 嵌入式
    24篇
  • JavaScript
    4篇
  • CSS
    4篇
  • javabean
    1篇
  • OC
    9篇
  • Swift
    11篇
  • Mac
    1篇
  • C#
    1篇
  • c++
    3篇
兴趣领域 设置
  • 人工智能
    机器学习深度学习神经网络
创作活动更多

2024 博客之星年度评选报名已开启

博主的专属年度盛宴,一年仅有一次!MAC mini、大疆无人机、华为手表等精美奖品等你来拿!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

python+神经网络实现时间序列预测

利用python语言进行时间序列处理
原创
发布博客 2017.03.26 ·
27415 阅读 ·
15 点赞 ·
10 评论 ·
120 收藏

word2vector

参考文献https://www.jianshu.com/p/1405932293ea用途====================将语料库中的词转化为向量,方便后续在词向量的基础上进行各种计算。实现方法1=============最常见的方法是counting编码N(i,j)表示,单词i和单词j同时出现的次数这种方法存在3个问题:每个单词的向量都很稀疏。虽然可以通过SVD降维,但是这个降维过程需要的计算量也很大;向量没有包含单词的语义内容,只是简单的数量统计;当有新的单词加入后,整个向量
原创
发布博客 2020.05.14 ·
364 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

spark之coalesce和repartition

如果需要将分区数量减少,需要调用coalesce方法。比如,上层数据很大,你只选取部分数据进行处理,并且要落地。如果不进行充分区,那么接下来有人使用这个数据的时候,分区数量很大,读取的很慢。如果需要将分区数量增加,需要调用repartition方法。加入需要了数据倾斜,或者并行度不够,就需要将数据的分区数量增加。从原理上将,repartition方法就是调用coalesce,但是将s...
原创
发布博客 2019.12.11 ·
503 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

spark性能优化

参数优化https://blog.csdn.net/xwc35047/article/details/71038581
原创
发布博客 2019.11.07 ·
372 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

fp-growth算法原理与代码实践

原理https://www.cnblogs.com/datahunter/p/3903413.html代码 import org.apache.spark.mllib.fpm.{FPGrowth, FPGrowthModel} import org.apache.spark.rdd.RDD import spark.implicits._ import com...
原创
发布博客 2019.10.13 ·
626 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

RF GBDT LR调参

https://zhuanlan.zhihu.com/p/56940098调参对于随机森林来讲,不会发生很大的波动,即使采用默认值,也可以保持不错的效果。对于随机森林,比较重要的参数有2个:决策树数量;每个决策树最多使用多少特征。对于决策树数量参数:决策树数量越多,效果越好越稳定。但是要在合理范围内,当决策树数量增大到一定数量后,效果基本保持不变。但是随着决策树数量的增...
原创
发布博客 2019.08.06 ·
936 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

boost VS adaboost VS 提升树 VS GBDT VS cart树 VS RF

参考文献:李航的统计学习方法Boosting(提升)方法:在分类任务中,通过改变训练样本的权重,学习多个分类器,并将这些分类器线性组合,提升分类的性能。这里提升的意思是指,将弱学习算法提升为强学习算法。这里就涉及到两个问题:如何修改样本的权重;如何将多个弱分类器整合成一个强分类器;Adaboost:针对上面提出的两个问题,adaboost是这样解决的:提高被分错样本的权重,降低分对...
原创
发布博客 2019.07.29 ·
349 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

特征工程常见问题

1 不均衡问题--类别不均衡如果是类别分布不平衡,有很多方法解决,比如重采样,使用决策树模型(树模型对样本不均衡问题不敏感),样本加权完成,修改损失函数。但是特征分布不均衡,应该怎么做?类别不平衡处理方法https://www.cnblogs.com/JZ-Ser/p/7508531.html1.0 重采样过采样。复制小众类样本的数量,或者利用smote生成。下采样。...
原创
发布博客 2019.07.17 ·
908 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

python与GIL锁

python与GIL,并没有直接的关系,和GIL有直接关系的是Cpython解释器,而大多数的python默认解释器是Cpython(底层用C++实现),所以很多人把python与GIL画上等号。但是除了Cpython,解释器还有Jpython,是用java写的,没有GIL。在Cpython中,如果多个线程同时对内存进行操作,难以保持数据的同步和一致性,因此要求一个进程同时只能执行一个线程,每...
原创
发布博客 2019.07.05 ·
226 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

归一化 正则化 标准化

标准化是对列进行归一化操作,主要包括:standardScaler: 将特征标准化为单位标准差或是0均值,或是0均值单位标准差。minmaxScaler:将特征的值缩放到[0,1]范围。x=(x-min)/(max-min)MaxAbsScaler:将特征的值缩放到[-1,1]范围。x=x / max|x|为什么要进行标准化操作?在现实生活中,一个目标变量(y)可以认为是...
原创
发布博客 2019.07.01 ·
1486 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

常见的机器学习分类模型

Spark mllib包含的分类模型有:逻辑回归,决策树,随机森林,梯度提升树,多层感知机,线性SVM,朴素贝叶斯。回归模型有:线性回归,决策树回归,随机森林回归,梯度提升树回归,生存回归,保序回归。在spark mllib库外,还有一个比较常见的模型:KNN。决策树==================非线性分类模型https://blog.csdn.net/tuntun...
原创
发布博客 2019.06.30 ·
15031 阅读 ·
2 点赞 ·
0 评论 ·
45 收藏

常见机器学习聚类算法

聚类最常见的,应该是kmeans。对于spark mllib,除了支持kmeans外,还支持GMM,主题模型LDA。比较常用的聚类模型还有:DBSCAN(密度聚类);层次聚类;K-Means聚类================1.首先,我们选择一些类/组来使用并随机地初始化它们各自的中心点。要想知道要使用的类的数量,最好快速地查看一下数据,并尝试识别任何不同的分组。中心点是与每个...
原创
发布博客 2019.06.30 ·
797 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

word2vecotr

用途====================将语料库中的词转化为向量,方便后续在词向量的基础上进行各种计算。实现方法1=============最常见的方法是counting编码N(i,j)表示,单词i和单词j同时出现的次数这种方法存在3个问题:每个单词的向量都很稀疏。虽然可以通过SVD降维,但是这个降维过程需要的计算量也很大;向量没有包含单词的语义内容,只是简单的数量统计;当有新...
原创
发布博客 2019.06.28 ·
303 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

CNN卷积神经网络的网络结构和学习原理

卷积神经网络,主要是对图片进行处理。假如需要对一个1000*1000的图片进行分类,如果用传统的机器学习或者DNN,如要输入1000000个特征,当然也可以提前用一些方法进行降维,但是处理还是不方便。有人提出,人类对于图像的判断,也是通过对图像进行多层抽象完成。于是就提出了卷积的概念。图中是一个图形识别的CNN模型。可以看出最左边的船的图像就是我们的输入层,计算机理解为输入若干...
原创
发布博客 2019.06.27 ·
1470 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

RNN循环神经网络的物理结构以及工作原理

基础的神经网络只在层与层之间建立了权连接,RNN最大的不同之处就是在层之间的神经元和建立连接(红线箭头指向部分)。输入层的权值为U,各层之间的权值W,隐藏层到输出层的输出层的权值为V。权值是共享的。非输出层的激活函数一般为tanh函数,即:h=tanh(Ux+Wh+b)输出层不需要激活函数 o=Vh+c最终模型的输出为y’=softmax(o)Softmax函数将...
原创
发布博客 2019.06.27 ·
773 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

IDEA写代码,编辑字体像word那样放大缩小

转自https://www.cnblogs.com/zlslch/p/7770965.html 
转载
发布博客 2018.07.31 ·
1011 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

关于“什么是数据挖掘”经典的解释

在校期间听了一次学术报告,是美国一个大牛学校的大牛教授做的演讲,主要讨论问题是“大数据时代的数据挖掘”该大牛对数据挖掘做了一个精辟的总结:报告内容:数据挖掘(Data Mining)(或知识发现,Knowledge Discovery)泛指从大量数据中挖掘出隐含的、先前未知但潜在有用的信息和模式的一个工程化和系统化的过程。在大数据时代里,数据的产生和收集是基础,数据挖掘是工具和手段,是大数据中最关...
原创
发布博客 2018.03.14 ·
783 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

推荐系统实践--第七章:推荐系统实例 第八章:评分预测问题

结合一个具体的例子,介绍如何设计一个推荐系统;介绍评分预测问题
原创
发布博客 2017.12.25 ·
1885 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

推荐系统实践---第六章:利用社交网络数据

结合社交网络数据对用户进行推荐
原创
发布博客 2017.12.25 ·
2656 阅读 ·
0 点赞 ·
0 评论 ·
4 收藏

推荐系统实践---第五章:利用上下文信息

结合用户进入系统时的上下文对用户进行推荐
原创
发布博客 2017.12.25 ·
928 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏
加载更多