大数据
文章平均质量分 57
he_wolf
这个作者很懒,什么都没留下…
展开
-
K-means Clustering【K-means聚类算法
对于处理大量样本数据很有用,比如服装制造商针对顾客体型数据确定S,M,L号的相应尺寸。例如取k=2,第一步, 任意取两个样本数据点作为中心,计算坐标中的所有其他点到这两点的距离,离哪个中心更近就加入这个中心的类。最后得到两个类第二步,分别计算两个类的所有点的平均横坐标和平均纵坐标,得到新的两个中心。不断重复这两部,中心位置不断收敛,最后得到一个极值。k-原创 2014-02-25 12:58:30 · 1874 阅读 · 1 评论 -
大数据和广告技术(Big Data and Ad-tech)
PII: Personally identifiable information. 在美国法律中指可以用来验证,联系和定位个体的信息,如名字,地址,电话号码,生日,驾照,IP,电子邮箱等等等。Lotame: Data management platform. Audience Management PlatformThe era of smart data is here. Smart d原创 2013-12-16 09:20:47 · 1244 阅读 · 0 评论 -
如何通过MapReduce来统计twitter高频词汇
正如同微博中的#标记一样,twitter中有很多#hashtag,那么出现次数越多的hashtag的内容自然y原创 2014-04-06 05:21:45 · 1649 阅读 · 0 评论 -
如何删除docker images/containers
docker images往往不知不觉就占满了硬盘空间,为了清理冗余的image,可采用以下方法:1.进入root权限sudo su2.停止所有的container,这样才能够删除其中的images:docker stop $(docker ps -a -q)如果想要删除所有container的话再加一个指令:docker rm $(docker ps -a -原创 2014-07-15 01:47:16 · 4519 阅读 · 0 评论 -
如何设置aws的instance的security group
1.如果是webserver的话一般要设置port 80的权限,可以选择HTTP, 然后输入自己的IP或者选择anywhere,这样任意ip都能access到了2.为了能够在其他机器上ping这个instance,需要设置ICMP,同样的ip可以自己设置也可以选择anywhere其余的TCP, UDP, HTTPS也最好设置下,如果没有隐私权限的要求,例如尚处于开发软件或者测试阶段原创 2014-07-15 04:21:39 · 3908 阅读 · 0 评论 -
Akka和VertX比较
Akka和VertX都是scala写大数据框架的极其赞的technologyAkka是用来写高concurrent,distributed,和fault tolerant event-driven的一个工具箱/库而vertx是一个具有类似功能的framework他们背后的general idea是很相近的,不同点在于:In Akka you would create原创 2014-09-21 10:49:59 · 10099 阅读 · 0 评论 -
zookeeper工作原理解析
zookeeper一般用于distributed locking,并不适合用于distributed storage,因为zookeeper的每个node,也叫做znode的存储容量限制是1M。zookeeper里的角色主要有client,leader和learner,其中learner也包括observer和follower。client为请求的发起方,follower为原创 2014-10-03 11:41:34 · 1544 阅读 · 0 评论 -
Samza/Kafka机理解析
Apache Samza is a distributed stream processing framework. It uses Apache Kafka for messaging, and Apache Hadoop YARN to provide fault tolerance, processor isolation, security, and resource manage原创 2014-11-02 15:24:08 · 1450 阅读 · 0 评论