自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

stark_summer的专栏

专注于开发分布式任务调度框架、分布式同步RPC、异步MQ消息队列、分布式日志检索框架、hadoop、spark、scala等技术 如果我的写的文章能对您有帮助,请您能给点捐助,请看首页置顶

  • 博客(218)
  • 资源 (2)
  • 问答 (3)
  • 收藏
  • 关注

原创 python FastAPI 如何解决并发和性能问题

FastAPI 是一个基于 Python 3.6+ 的 Web 框架,它具有简单易用、高性能、快速编写 API 等特点。

2023-05-22 07:22:51 11348 2

原创 深度学习踩坑经验沉淀【持续更新】

在深度学习炼丹过程中,总会遇到各种奇怪问题,这个时候总会在csdn和知乎平台找到答案,那每次遇到的问题是解决了,但没有记录起来,确实太可惜,因为未来某个时间或者某个人会遇到类似问题,所以在这片文章专项整理,pytorch、python、conda、pip等问题,希望能给大家更多帮助。

2023-05-21 22:25:54 1787 1

原创 剖析NLP历史,看chatGPT的发展

​NLP里的有监督任务的范式,可以归纳成如下的样子。输入是字词序列,中间一步关键的是语义表征,有了语义表征之后,然后交给下游的模型学习。所以预训练技术的发展,都是在围绕怎么得到一个好的语义表征(representation)的这一层次,逐渐改进的。​语义特征计算分为三个阶段,分别是一、特征工程阶段,以词袋模型为典型代表二、浅层表征阶段,以word2vec为典型代表三、深层表征阶段,以基于transformer的Bert为典型代表。

2023-03-12 19:57:21 6384

原创 2022 Tesla AI Day

一文读透,22年tesla AI Day重点内容 ,分别是Tesla Bot 、FSD最新进展、Dojo超算、HW4.0【放鸽子了】

2022-10-06 10:53:58 1135

原创 mac OS X10.11.5安装scikit-learn后运行出现ValueError: numpy.dtype has the wrong size的错误

安装机器学习类库 通过pip命令安装机器学习类库 numpy,scipy,scikit-learn sudo pip install numpy scipy scikit-learn 但是安装后,运行机器学习算法,报错如下:Traceback (most recent call last): File "<stdin>", line 1, in <module> File "/Library/Py

2016-07-21 11:18:14 1926

转载 机器学习简史

最近学习的重点不在机器学习上面,但是现代的学科就是这么奇妙,错综复杂,玩着玩着,你发现又回到了人工智能这一块。所以干脆好好整理下当下令很多人如痴如醉,但又不容易入门的机器学习。一来给大多数还没有入门的人一点宏观概念,二来让我自己以后找解决办法的时候更有头绪。故此文不是给想快速上手的工程师的菜单,更像一篇娓娓道来的武侠小说,看看人工智能世界的先驱们是如何开宗创派的。一、从人工智能说起

2015-12-20 16:30:02 5455

原创 机器学习概念整理

伯努利分布: https://zh.wikipedia.org/wiki/%E4%BC%AF%E5%8A%AA%E5%88%A9%E5%88%86%E5%B8%83主成分分析: https://zh.wikipedia.org/wiki/%E4%B8%BB%E6%88%90%E5%88%86%E5%88%86%E6%9E%90均方差: https://zh.wikipedia.org/wi

2015-12-10 15:01:53 1605

原创 那些年我们对Spark RDD的理解

这篇文章想从spark当初设计时为何提出RDD概念,相对于hadoop,RDD真的能给spark带来何等优势。之前本想开篇是想总体介绍spark,以及环境搭建过程,但个人感觉RDD更为重要铺垫 在hadoop中一个独立的计算,例如在一个迭代过程中,除可复制的文件系统(HDFS)外没有提供其他存储的概念,这就导致在网络上进行数据复制而增加了大量的消耗,而对于两个的MapReduce作业之间数

2015-12-09 15:57:31 34159 7

原创 机器学习疑问整理

回答一: 感觉logistic模型的优点有如下: 1. logistic是线性模型,在相同的条件下线性模型的稳定要优于非线性模型; 2. logistic模型的效果评价除了验证数据集外,还有统计学的验证,感觉更严谨; 3. logistic是基于统计学原理的,更容易让统计和数学背景的人接受; 4. 模型参数的解释更科学,比如某变量的影响直接用发生比就能解释; 5.

2015-12-09 14:53:30 1267

原创 kafka性能参数和压力测试揭秘

上一篇文章介绍了Kafka在设计上是如何来保证高时效、大吞吐量的,主要的内容集中在底层原理和架构上,属于理论知识范畴。这次我们站在应用和运维的角度,聊一聊集群到位后要怎么才能最好的配置参数和进行测试性能。Kafka的配置详尽且复杂,想要进行全面的性能调优需要掌握大量信息,我也只是通过工作中的一些实战经验来筛选出对集群性能影响最大的几个要点,接下来要阐述的观点也仅限于我所描述的环境下,请大家根据自己

2015-12-07 10:45:21 65213 4

原创 kafka 高吞吐量性能揭秘

此文章来自于我司高磊童靴kafka作为时下最流行的开源消息系统,被广泛地应用在数据缓冲、异步通信、汇集日志、系统解耦等方面。相比较于RocketMQ等其他常见消息系统,Kafka在保障了大部分功能特性的同时,还提供了超一流的读写性能。本文将针对Kafka性能方面进行简单分析,首先简单介绍一下Kafka的架构和涉及到的名词:1. Topic:用于划分Message的逻辑概念,

2015-12-02 10:18:17 33133 3

转载 机器学习算法实现的演化

下面将会对机器学习算法的不同的实现范式进行讲解,既有来自文献中的,也有来自开源社区里的。首先,这里列出了目前可用的三代机器学习工具。传统的机器学习和数据分析的工具,包括SAS,IBM的SPSS,Weka以及R语言。它们可以在小数据集上进行深度分析——工具所运行的节点的内存可以容纳得下的数据集。第二代机器学习工具,包括Mahout,Pentaho,以及RapidMiner。它们可以对大数据进行我称

2015-11-14 11:33:19 2053

原创 spark-sql与elasticsearch整合&测试

1. 前置条件spark是1.4.1版本 elasticsearch是1.7版本 java是1.7版本2. 依赖jar包需要使用elasticsearch-hadoop 下载地址:http://mvnrepository.com/artifact/org.elasticsearch/elasticsearch-hadoop/2.2.0-m13. 配置将下载的elasticsearch-hado

2015-11-09 19:49:04 31833 7

转载 认识每一个“你”:微博中的用户模型

社交媒体(Social Media)相对于传统互联网媒体的最大区别是通过建立人与人之间的联系,极大提升了信息生产量以及传播效率。身处社交媒体中的每个人或组织同时扮演着信息生产者、传播者与接受者的角色。在社交媒体背景下,用户生产、传播和接收信息更加便捷,使得之前相对集中的用户兴趣和行为变得更加碎片化和离散,因此社交媒体中的用户模型的构建和应用也发生了巨大的变化。微博经历了6年的发展,

2015-11-09 14:01:15 12264

原创 通过spark-redshift工具包读取redshift上的表

spark数据源API在spark1.2以后,开始提供插件诗的机制,并与各种结构化数据源整合。spark 用户可以读取各种各样数据源的数据,比如Hive表、JSON文件、列式的Parquet表、以及其他表。通过spark包可以获取第三方数据源。 而这篇文章主要讨论spark 新的数据源,通过spark-redshift包,去访问Amazon Redshift服务。 spark-redshift

2015-11-07 18:02:55 3593

原创 既然有了elasticsearch为什么还要用hadoop和spark呢?good question

最近更多的时间投入到工作,而其余时间在学习elasticsearch & 机器学习 看到这篇文章,感觉有收获~ https://www.quora.com/Why-do-people-use-Hadoop-or-Spark-when-there-is-ElasticSearch

2015-11-04 13:31:23 12589 3

原创 hbase数据迁移方式

之前要hbase数据迁移,我使用Export/Import方式,感觉很棒,链接如下: http://blog.csdn.net/stark_summer/article/details/49078471,后来发现还有其他两种方式,so就全部整理下吧。copytable方式bin/hbase org.apache.hadoop.hbase.mapreduce.CopyTable --peer.ad

2015-10-21 15:25:32 20708

原创 Task not serializable:java.io.NotSerializableExceptionon

异常信息这里关于调用外部的closure时出现了一些错误,当函数是一个对象时一切正常,当函数是一个类时则出现如下报错:Task not serializable: java.io.NotSerializableException: testing下面是能正常工作的代码示例: object working extends App { val list = List(1,2,3) val

2015-10-21 15:12:50 19492

原创 大数据社区研讨会 (第一届)

时间:2015年10月22日(星期四)下午,13:00PM - 17:30PM地点:北京市海淀区清华科技园创新大厦A座2楼技术报告:13:00-13:30 签到13:30-13:35 开场 - 冯雷(FENG, Ray), Pivotal中国研发中心GM13:35-14:15 Apache HAWQ介绍 - 常雷(CHANG, Lei), HAWQ创始人, 研发总监, Pivotal14:15-1

2015-10-20 10:26:34 8019

原创 spark streaming的NetworkWordCount实例理解

NetworkWordCount代码/** Licensed to the Apache Software Foundation (ASF) under one or more* contributor license agreements. See the NOTICE file distributed with* this work for additional information r

2015-10-19 16:30:39 16034 1

原创 每日三个笑话-201510117

电线杆子?是你媳妇? 一次堂哥喝多在大街上睡着了,堂嫂给他拿个席铺上就走了!第二天堂哥发疯的要打堂嫂:你个心狠的娘们儿,你就不怕我冻死!没想到堂嫂更生气:你个不认窝的爷们,非说大街是你家,电线杆子是你媳妇,我拉不走也扛不走…奔跑吧。小胖子???真实老同学么? 昨天一N年没见的同学突然给我发了一个链接,让我给他孩子投什么票?说他孩子现在第三名,我毫不犹豫的点进去,默默给了第四名一票!

2015-10-18 20:41:03 917

原创 2015-10-17在北京第四届Elasticsearch中国大会--资料整理

活动安排演讲者ppt资料链接: http://pan.baidu.com/s/1bnHjrWV 密码: acau直播视频http://www.quklive.com/q3/l/4445059076382165合影留恋招聘午餐作者:stark_summer 出处:

2015-10-18 14:25:12 8867 1

原创 每日三个笑话-201510116

男朋友学驴叫 妹子最近谈了个男友,可老妈各种不同意,电脑给我关掉,手机也没收,软禁我在家……。 由于我的失联,男友真急眼啦,半夜,就来到我们家楼下学动物叫,希望能引起我的注意,也好取得联系,结果,惹的楼上楼下,骂声一片……。 气的我妈指着我鼻子数落:“听听,听听,你这是找了个啥玩意儿?,人家都学个小猫、小狗啥的,他到好,大半夜学驴叫……”。一个充满活力的家 有一天,小明问他爸爸:"为什么我一

2015-10-18 12:01:32 1089

原创 每日三个笑话-20151015

好吧,你们城里人最会玩 跟朋友去下馆子,在酸菜鱼里看见了只苍蝇,哥们欲叫服务员,我说等下,然后掏出个硬币藏到盘中,然后叫来服务员,服务员道歉说给换一盆,一会儿服务员就又端了一盆来,然后我们当着服务员面开始翻,当我们翻出一枚硬币服务员傻了!然后大堂经理来了忙道歉说这顿我买单……#又涨姿势了##(滑稽) #(滑稽)教练让我别来了 这哥哥怎么能这样呢?表妹考上外省一大学,火车站送她。拉着她的小肥手,

2015-10-16 12:05:17 5814

原创 指定月份&起始天和终止天串行提交shell命令

我想需求是这样的: 比如指定月份是201508,8月份起始天是1号,8月份终止天是31号 这样我可以提交hadoop任务补8月份数据 同时我还要求提交的前一个任务完成,才能运行下一个任务,这也是业务要求的,所以自己就用shell和python实现这个需求了,时间很紧就是在晚上睡前写完的shell 我这个只是简单的调用“touch”命令创建文件,把调用的shell命令改成相应的hadoop或

2015-10-16 11:55:33 18215

原创 这些图片用真的亮瞎我的双眼了

以下图片是通过g++生产的,感觉很玩的样子 更多图片请看: http://codegolf.stackexchange.com/questions/35569/tweetable-mathematical-art

2015-10-15 14:54:20 10775

原创 每日三个笑话-20151014

幺儿牙痒……so、 右手? 旁边的女士? 今天参加同学的婚礼,主持人各种无节操,介绍新郎时,"张**年轻有为,事业有成,但却把自己青春时最宝贵的东西献给了他的右手" 全场爆笑,新郎一脸尴尬,主持不慌不忙假装忘词了,看下手里卡片,接着说“右手旁边的女士” ,虚惊一场呀!刚刚刚领的!

2015-10-15 11:11:58 5650

原创 全自动领取天猫双11优惠券教程!

#双十一爆款清单##天猫爆款清单##天猫双11爆款清单#自动领取天猫双11优惠券教程!第一步:打开2015年天猫双十一领券页面:http://s.click.taobao.com/nYHeKox 记住一定要先【登录】 记住一定要先【登录】 记住一定要先【登录】 第二步:按键盘F12键打开开发者工具,选择【控制台/console

2015-10-15 11:02:36 13869

原创 2015-10-17在北京第四届Elasticsearch中国大会

时间Saturday, October 17, 2015 8:00 AM to 6:00 PM地点中国科学院软件研究所 中关村南四街4号中国科学院软件园区5号楼, 北京市海淀区中关村南四街4号中国科学院软件研究所5号楼4层大报告厅, 地铁10号线”知春里站”下详情是由elasticsearch中文社区每年定期举办的线下交流活动,今年已经是第四届了,会议围绕elasticsearch及周边产品和技

2015-10-14 10:32:17 11871

原创 每日三个笑话-20151013

先米西米西,花姑娘滴,一会儿就回来 邻居家的女孩找了个日本老公,前几天回国,家人在一起吃饭,女孩忽然有事儿出去了,一家人没人会说日语,谁都不好意思先动筷子,尴尬了一阵。老丈人忍不住了,对他的日本女婿来了一句:“太君!你滴,先米西米西,花姑娘滴,一会儿就回来。 ……现在不同了 吐个象牙? 公司两女人吵架,,,,,,一人激动的指着对方大骂:你狗嘴里吐不出象牙! 另一个悠悠地回一句:哟!你牛B,你

2015-10-13 22:14:23 10611 1

转载 如何制做长辈疯传的网路分享图

这是同事强烈推荐的文章,我感觉最好的纪念就转载吧转载于:http://card.weibo.com/article/h5/s#cid=1001603894265703979286&from=1054593010&wm=3333_2001&ip=223.104.13.66改革开放了,科技进步了,长辈用上智能机了,自从东方出了朋友圈,从此长辈更奔放,每天除了吃饭睡觉喝酒跳广场舞,就是在

2015-10-13 12:04:17 7698

原创 hbase import & export

对于两个hadoop集群(生产环境和测试环境),想讲两个hbase表同步或者迁移,更保守的方式使用hbase自带的import & exportexport语法为:bin/hbase org.apache.hadoop.hbase.mapreduce.ExportERROR: Wrong number of arguments: 0Usage: Export [-D <property=va

2015-10-12 19:25:15 16879 2

原创 awk内置变量使用介绍

内置变量表 属性 说明 $0 当前记录(作为单个变量) 1 1~n 当前记录的第n个字段,字段间由FS分隔 FS 输入字段分隔符 默认是空格 NF 当前记录中的字段个数,就是有多少列 NR 已经读出的记录数,就是行号,从1开始 RS 输入的记录他隔符默 认为换行符 OFS 输出字段分隔符 默认也是空格 ARGC 命令行参数个数

2015-10-12 15:01:01 12065

原创 夏洛特烦恼 的感想

观看时间:2015-10-05 20:40 人物:与一个妹子一起看的。 网络搞笑段子夏洛特烦恼 本来以为叫夏洛特 外国片 没想到男一号叫夏洛 接下来会不会有《邓紫棋牌室》《郭敬明天见》《周立波很大》《吴奇隆胸记》《王宝强奸案》《井柏然并卵》《黄秋生无可恋》《贾乃亮了》《爱迪生气了》《林依晨勃了》《陈楚生孩子》《吴莫愁眉苦脸》《舒伯特搞笑》《吴亦凡人梦》《周润发财了》《张国立帐篷》《陈道明白了》《

2015-10-11 22:19:23 6979

原创 每日三个笑话-20151011

原来锤子如此威武 现在的女司机连墙都不放过呀 “喂,老公,你在哪呢?” “我在公司呢” “告诉你件事你别生气啊” “老婆你说,没事” “咱家车被撞了”, “什么,车被撞,谁的责任” “我觉得吧好像是我的责任”, “那对方就一点责任都没有吗?” “对方是墙”……欢迎追尾

2015-10-11 21:44:11 5884

原创 稀疏矩阵存储格式总结+存储效率对比:COO,CSR,DIA,ELL,HYB

稀疏矩阵是指矩阵中的元素大部分是0的矩阵,事实上,实际问题中大规模矩阵基本上都是稀疏矩阵,很多稀疏度在90%甚至99%以上。因此我们需要有高效的稀疏矩阵存储格式。本文总结几种典型的格式:COO,CSR,DIA,ELL,HYB。Coordinate(COO) 这是最简单的一种格式,每一个元素需要用一个三元组来表示,分别是(行号,列号,数值),对应上图右边的一列。这种方式简单,但是记录单信息多(行列)

2015-10-11 18:06:11 26388

原创 每日三个笑话-20151010

谢谢主管 上班时间,同事某向主管请假: “领导,我请个假。” “什么事情?” “我老婆从老家来了。” “来就来呗,请什么假?” “我女朋友还在家。” “……那你赶快回去!”男人可能不会打光棍 今天上课,老师对学生说:中国男人比女人多三千万,所以现在一定要好好学习,要不将来只能打光棍!” 这时,角落里传来冷笑:“又不是所有男人都喜欢女人…” 全班沸腾……有木有同感的???

2015-10-10 23:32:44 5799

转载 机器学习算法的本质(Python和R准则)

系统化讲解关于机器学习算法,看到有人翻译过这篇文章,但感觉还是原文更好。 http://www.analyticsvidhya.com/blog/2015/08/common-machine-learning-algorithms/#rd?sukey=e74171513d3453dd223d8ac2deeb49e1eac3a7c7511b955187120c332b0e4df30837b86c69

2015-10-10 10:45:09 8492

原创 每日三个笑话-20151009

不陪我玩,就拔电源了! 抢屎吃 今天在朋友家看到2只狗在吃东西,好奇的去看了下,居然在吃屎,更可恶的是那2只狗看到我去了,居然还发怒,TM的难道老子会跟你抢屎吃?五个字正好

2015-10-10 10:35:08 5698

原创 文件编辑器vim--vim使用技巧

导入命令执行结果 :r !命令:r !date执行其他命令:! which ls定义快捷键 :map 快捷键 触发命令:map ^P I#<ESC>^P=control+v+p:map ^B 0x^P=control+v+b连续行注释从n1到n2,行首加#注释:n1,n2s/^/#/g从n1到n2,去掉行首#去掉:n1,n2s/^#//g从n1到n2,行首增加//注释:n1,n2s/^/

2015-10-10 08:03:45 18329

较经典JSP教程,为了方便大家学习

较经典JSP教程,为了方便大家学习 个人感觉很不错的,还挺详细的呢

2010-11-11

android开发书籍

找 了很久,终于找到一个比较不错的android开发书籍。

2010-07-14

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除