走一步
码龄14年
求更新 关注
提问 私信
  • 博客:105,609
    社区:229
    105,838
    总访问量
  • 37
    原创
  • 10
    粉丝
  • 51
    关注
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:山西省
加入CSDN时间: 2011-06-13
博客简介:

一步一步

博客描述:
机器学习 机器视觉
查看详细资料
个人成就
  • 获得14次点赞
  • 内容获得23次评论
  • 获得49次收藏
创作历程
  • 2篇
    2020年
  • 3篇
    2019年
  • 6篇
    2018年
  • 25篇
    2017年
  • 9篇
    2016年
  • 8篇
    2015年
  • 6篇
    2014年
成就勋章
TA的专栏
  • 算法练习
    8篇
  • 机器学习
    5篇
  • c++
    3篇
  • java
    9篇
  • 博客笔记
    1篇
  • 大数据
    5篇
  • 深度学习
    1篇
  • python
    4篇
  • hive
    1篇
  • spark
    12篇
  • 练习&效率
    1篇
  • linux
    3篇
  • scala
    3篇
  • storm
    1篇
  • kaggle

TA关注的专栏 3

TA关注的收藏夹 0

TA关注的社区 7

TA参与的活动 0

兴趣领域 设置
  • 人工智能
    机器学习深度学习
创作活动更多

新星杯·14天创作挑战营·第9期

这是一个以写作博客为目的的创作活动,旨在鼓励大学生博主们挖掘自己的创作潜能,展现自己的写作才华。如果你是一位热爱写作的、想要展现自己创作才华的小伙伴,那么,快来参加吧!我们一起发掘写作的魅力,书写出属于我们的故事。我们诚挚邀请你们参加为期14天的创作挑战赛! 注: 1、参赛者可以进入活动群进行交流、分享创作心得,互相鼓励与支持(开卷),答疑及活动群请见 https://bbs.csdn.net/topics/619626357 2、文章质量分查询:https://www.csdn.net/qc

473人参与 去参加
  • 最近
  • 文章
  • 专栏
  • 代码仓
  • 资源
  • 收藏
  • 关注/订阅/互动
更多
  • 最近

  • 文章

  • 专栏

  • 代码仓

  • 资源

  • 收藏

  • 关注/订阅/互动

  • 社区

  • 帖子

  • 问答

  • 课程

  • 视频

搜索 取消

python语法总结

1、Python 中 absl 库的用途https://blog.csdn.net/chr1991/article/details/94492128absl 库全称是 Abseil Python Common Libraries。它原本是个C++库,后来被迁移到了Python上。它是创建Python应用的代码集合。这些代码从谷歌自己的Python代码基地中搜集而来,已经过全面的测试并广泛用于生产中。特点:简单的应用创建分布式的命令行标志系统用户自定义的记录模块,并拥有额外的功能。拥
转载
发布博客 2020.06.28 ·
314 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

一些查过好用的hdfs命令

gzip 文件查看 HDFS 上 gzip 文件的命令 12345 hadoop fs -cat /shining/temp.txt.gz | gzip -d 或hadoop fs -cat /shining/temp.txt.gz | zcat 转载自:https://sukbeta.github.io/hadoop-lzo-gz-bz2/hadoop上命令行查看lzo、gz、bz文件或者对各种文件都可以使用-text选...
原创
发布博客 2020.06.27 ·
336 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

md5使用

背景:需要用MD5压缩字符串问题:java实现的MD5类是线程不安全的问题描述代码及解决方案:https://www.cnblogs.com/xujishou/p/8044339.html
转载
发布博客 2019.11.12 ·
334 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

kaggle好文:一个框架解决几乎所有机器学习问题(2016.7.18)

是16年一个大神写的做数据问题的常见思路和参考demo,据说需要调的超参经验非常好;可以试着按这个流程来试验一次问题。原链接:https://www.linkedin.com/pulse/approaching-almost-any-machine-learning-problem-abhishek-thakurApproaching (Almost) Any Machine ...
转载
发布博客 2019.05.23 ·
800 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

storm常用模式

storm常用模式Apache Storm是目前最流行的实时计算框架之一,基于streams, spouts, bolts, and topologies这些基本组件,可以组合出一些计算模式,每个模式对应解决一类现实中的问题。下面介绍7种计算模式,并给出代码示例,希望对读者有所帮助:(我这只看到3种)模式1: JOINJoin一般是指基于摸个共同的属性,把2类内容合并到一起。传统数据库的j...
转载
发布博客 2019.03.30 ·
389 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

spark程序性能优化--合并文件

背景:把总量3T的文件和40G的文件合并按key合并,把3T中40G有的记录换成40G的,40G中3T没有的加上。原先是按其中一个数据域经过hash,把数据分成3个part进行处理,大概每个半小时,3个任务1.5小时处理完(之前3T的数据总量大约1.2T)。但随着数据增加,每个部分数据变为了1T,并且数据长度增长,原先半小时的任务跑2个小时都跑不完,进行优化。(1)读入优化:对每条记录用spl...
原创
发布博客 2018.08.17 ·
1931 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Mllib学习

http://spark.apache.org/docs/latest/mllib-data-types.html 这里有很多例子1、vector基础用法:import org.apache.spark.mllib.linalg.Vectors object Test { def main(args: Array[String]) { val vd = Vectors...
原创
发布博客 2018.06.15 ·
476 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

spark进行map,join分worker数少的一些问题

1、fullouterjoin导致的分配worker少:一开始然后加coalesce(1000)还是用的worker很少然后调整join顺序,之前是(小数据)fullouterjoin(大数据),把大小数据顺序调换,worker多了,执行变快最后结果ps:改变join时spark shuffle用的worker数--conf spark.sql.sh...
原创
发布博客 2018.04.24 ·
729 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

scala中用json

文件结构:{ "DenseFeature": [     { "field":0,     "Features":[     “feature1”      ]}]}是这样的4层结构,不管用哪套api解析我都是崩溃的,想看看原来怎么拼成这么复杂的结果的。用scala自带的json解析特别崩溃,因为从map里面拿出来是some类型,json对象还需要拿里面的对象才可以得到内容。用google的gso...
原创
发布博客 2018.03.24 ·
6669 阅读 ·
0 点赞 ·
3 评论 ·
2 收藏

linux技巧总结

1、时间https://www.cnblogs.com/tangshiguang/p/6735367.html 总结很全取一天后日期date=`date -d "$date 1 day" +%Y%m%d`取一天前日期date=`date -d'1 days ago' +%Y-%m-%d`取指定日期前几天date -d '20190220 20 days ago' +%Y...
原创
发布博客 2018.03.14 ·
288 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

spark编程cheat-sheet

1、pysparkspark routain:from pyspark import SparkContextfrom pyspark import HiveContextif __name__ == '__main__': global_dic = get_dic(target_date) sc = SparkContext(appName='get_sub_stra
原创
发布博客 2018.01.02 ·
630 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

关于spark一些参数的问题

1、2、怎么看给自己分配多少资源来着?以前查着又忘了 3、shuffleRead怎么更快?
原创
发布博客 2017.09.13 ·
479 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

MapPartition一次oom问题解决

1、问题:每次跑到MapParititon就会停住 看起来是repartition的问题,实际出问题的是之前的mapPartition executor表现: 出问题的代码:val process_data = data.mapPartitions( rs => { val delLabelMapbc = delLabelMap.value
原创
发布博客 2017.09.13 ·
3316 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

groupByKey一直OOM处理

1、一个任务很简单,就是把2T数据读入,按\t拆分,取里面四个字段,之后groupByKey,但是遇到了一直groupByKey就一直fullGC的问题。这里第一个stage很快就跑完了,应该是在拉数据,map之类的。但是只产出19G数据,groupByKey直接处理应该还是绰绰有余的,但现实是我试了一个周末加一天加两个小时,一直FullGC。这个原因不明,对于整个过程内存到底怎么使用还不完全清楚。
原创
发布博客 2017.09.13 ·
978 阅读 ·
1 点赞 ·
1 评论 ·
0 收藏

用GC日志看spark程序是不是在driver,Executor内存效率不高

1、设置conf的方式有三种: set by SparkConf: conf.set(“spark.driver.maxResultSize”, “3g”) set by spark-defaults.conf: spark.driver.maxResultSize 3g set when calling spark-submit: –conf spark.driver.maxResultSi
原创
发布博客 2017.09.12 ·
3778 阅读 ·
1 点赞 ·
0 评论 ·
3 收藏

执行scala

scala运行
原创
发布博客 2017.08.06 ·
1716 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Scala中函数组合器用法

http://blog.csdn.net/springlustre/article/details/52882205 讲的挺全
转载
发布博客 2017.07.20 ·
723 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

第二篇一次查询

问题:sparksql用GROUPPING SETS同时做不同维度组合的聚合,原先刚刚好危险的在一个小时内跑完,又新加了两个维度,维度组合翻倍(大致30个组合),结果要聚合的数据量也翻倍了。。。每次数据量大于2T,导致倾斜严重,运行慢的问题。(注,图的笔记利用了两个很相同的查询,只是为了说明一下情况) 尝试改进1:用mr跑会不会更快?没有,mr跑了2小时,spa
原创
发布博客 2017.07.10 ·
475 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

hive查过的函数

1、正则匹配函数  regexp  1.正则匹配 数值型 hive  > select  1 regexp '^[0-9]*$'   from dual;  > true  2.正则匹配数值开头结尾 hive > select  '1aa1'   regexp '^[0-9].*$'   from dual;  > tru
原创
发布博客 2017.07.03 ·
328 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

一次查询2

一次spark查询
原创
发布博客 2017.06.07 ·
382 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏
加载更多