自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

  • 博客(30)
  • 资源 (5)
  • 收藏
  • 关注

原创 站在路口的思考

工作一份不算低的薪资。深度:经验能使得你有一技之长,成为某方面的专家。广度:紧跟技术潮流,不断学习,不被淘汰。跳槽,涨薪第二份经济来源投资理财小本创业家教兼职尽可能的是只赢不亏的,可以不稳定,但是要向成型的方向发展爱好与梦想尽可能的将爱好(除了编码外) 转化为可以盈利(但不是目的)的一种方式梦想情怀,可以想的远大点,想做成一件大事。做一些为之贡献的小事。这些小事你做了,这就是你比别

2016-06-30 14:16:49 935

原创 【Spark Mllib】性能评估 ——MSE/RMSE与MAPK/MAP

推荐模型评估MSE/RMSE均方差(MSE),就是对各个实际存在评分的项,pow(预测评分-实际评分,2)的值进行累加,在除以项数。而均方根差(RMSE)就是MSE开根号。我们先用ratings生成(user,product)RDD,作为model.predict()的参数,从而生成以(user,product)为key,value为预测的rating的RDD。然后,用ratings生成以(user

2016-06-30 11:14:04 5930 1

原创 深入理解Spark ML:基于ALS矩阵分解的协同过滤算法与源码分析

http://blog.csdn.net/u011239443/article/details/51752904随着互联网的迅猛发展,为了满足人们在繁多的信息中获取自己需要内容的需求,个性化推荐应用而生。协同过滤推荐是其中运用最为成功的技术之一。其中,基于用户的最近邻法根据相似用户的评分来预测当前用户的评分。然而,在用户数量以及用户评分不足的情况下,该方法存在冷启动和数据稀疏的问题。为了解决这两个问题,业界提出了提出了基于项的最近邻法,利用项之间相似性稳定的特点可以离线计算相似性,降低了在线计算量,提高了推

2016-06-26 13:40:00 31239 6

转载 一篇漫画让你理解 Hadoop HDFS 读写工作原理

一篇漫画让你了解Hadoop HDFS!

2016-06-24 11:41:30 3589 1

原创 【Spark Mllib】TF-IDF&Word2Vec——文本相似度

一个比较通用的例子是使用单词的向量表示基于单词的含义计算两个单词的相似度。特征哈希通过使用哈希方程对特征赋予向量下标,这个向量下标是通过对特征的值做哈希得到的(通常是整数)。使用的哈希方程必须是一致的(就是说,对于一个给定的输入,每次返回相同的输出)。的含义是:在一个文档中出现次数很多的词相比出现次数少的词应该在词向量表示中得到更高的权值。最后的结果就是,稀有的或者重要的词被给予了更高的权值,而更加常用的单词(被认为比较不重要)则在考虑权重的时候有较小的影响。对于我们的任务来说,可以使用。

2016-06-21 16:59:02 27547 1

原创 文本搜索(C实现)

#include <stdio.h>#include <string.h>using namespace std;struct cha{ char aa[50];//存储单词(不重复) int num;//该单词出现的次数 int Mark[100];//标记该单词出现过的行};cha CHA[1000]; struct Mystr{ char bb[5

2016-06-20 11:55:29 3227

原创 【Spark Mllib】K-均值聚类——电影类型

经过损失函数的评估,将性能最好的一次训练选定为最终的模型。试图将一系列样本分割成K个不同的类簇(其中K是模型的输入参数),其形式化的目标函数称为类簇内的方差和(within cluster sum of squared errors,WCSS)。但是,也有证据表明聚类过程会提取电影之间的属性或者相似之处,这不是单纯基于电影名称和题材容易看出来的(比如外语片的类簇和传统电影的类簇,等等)。内部评价指标WCSS(我们之前提过的K-元件的目标函数),是使类簇内部的样本距离尽可能接近,不同类簇的样本相对较远。

2016-06-18 23:29:26 7938 1

原创 【Spark Mllib】分类模型——各分类模型使用

数据集:线性模型

2016-06-16 13:37:30 5163

翻译 Impala的分布式查询

翻译自《Getting Started with Impala》 分布式查询  分布式查询是impala的核心。曾几何时,你需要研究并行计算,才能开始进行深奥而晦涩的操作。现在,有运行在Hadoop上面的Impala,你只需要...一台笔记本电脑。理想情况下,一个IT部门也会有运行着Cloudera Distribution with Hadoop (CDH)的Linux服务器集群。但

2016-06-13 10:06:01 1217

原创 轻量级文本搜索引擎的后台设计、实现与优化

转载请注明:转载 from http://blog.csdn.net/u011239443/article/details/51655480主框架图见:http://r.photo.store.qq.com/psb?/V12VvuOZ2vxbmG/M2gzPWfnBLS8buBT*16Y2xm9QkAAp8TmePOlIPC1MlM!/r/dFMAAAAAAAAA 1.1 生成库——词频库、词语索...

2016-06-13 10:05:56 5389

原创 1 producer — n consumers 模型 实现

1 #include 2 #includestring.h> 3 #include 4 #include 5 #include 6 #include 7 using namespace std; 8 #define LEN 128 9 typedef struct task_que 10 { 11 queuechar*> string

2016-06-13 10:05:48 519

原创 【Spark Mllib】逻辑回归——垃圾邮件分类器与maven构建独立项目

使用SGD算法逻辑回归的垃圾邮件分类器 1 package com.oreilly.learningsparkexamples.scala 2 3 import org.apache.spark.{SparkConf, SparkContext} 4 import org.apache.spark.mllib.classification.LogisticRegressi

2016-06-13 10:05:34 4126

原创 域名转化到IP地址的实现

在linux中,有一些函数可以实现主机名和地址的转化,最常见的有gethostbyname()、gethostbyaddr()等,它们都可以实现IPv4和IPv6的地址和主机名之间的转化。其中gethostbyname()是将主机名转化为IP地址,gethostbyaddr()则是逆操作,是将IP地址转化为主机名。    函数原型:     1 #include 2

2016-06-13 10:01:04 2507

原创 特定用户QQ群聊天记录导出的实现

一、把QQ群的聊天记录txt格式导出消息管理器 -> 选择要导出的群 -> 右击、导出这里要注意 : 导出之后的 文本是 unicode 编码的,需要转换 ==|| 之前不知道,搞了大半天。重新建一个txt , 把原来的 txt 内容 复制 到 新的 txt ,保存就行了。

2016-06-13 10:01:00 3394

原创 《世界杯彩票竞猜系统》设计报告

目录1 文档介绍4 1.1 文档目的41.2 文档范围41.3 读者对象41.4 参考文献51.5 术语与缩写解释52 系统环境说明63 需求分析73.1 功能需求分析73.2 非功能需求分析74 数据库的命名规则85 概念结构设计96 逻辑结构设计

2016-06-13 10:00:46 5442

原创 clients(PV操作共享内核内存进行输入输出分屏) - server(进程间通信)模型实现

1、拓扑结构   2、PV操作共享内核内存进行输入输出分屏(1)1 int semop(int semid,struct sembuf *sops,size_t nsops);功能描述操作一个或一组信号。  semid:信号集的识别码,可通过semget获取。 sops:指向存储信号操作结构的数组指针,信号操作结构的原

2016-06-13 10:00:20 744

原创 父子进程间通信模型实现(popen)

0、FILE *popen(const char *command, const char *type);popen 函数相当于做了以下几件事:1、创建一个无名管道文件2、 fork()3、在子进程里, exec command4、 在子进程里,若 type == “r” ,  相当于进行:int fd_new = fopen("Pipe_Name",O_WRON

2016-06-13 10:00:15 1401

原创 1 server - n clients 模型实现(select)

拓扑结构: 各个客户端创建读写管道,通过“上下线信息管道”向服务器发送上下线信息和读写管道名称。服务器接受信息,修改链表(存储客户端信息)。客户端、服务器打开读写管道,服务器通过“W”管道接收从客户端发来的信息,在根据链表同个其他各个“R”管道向其他客户端发送信息。 具体流程:1、建立上下线信息管道服务器: 1 mkfifo(path_name, 0666);/

2016-06-13 10:00:11 458

转载 人为什么而活?

人,无论如何首先都要立足于使自己活着。客观上,人们也都是竭尽全力地想要使自己不仅活着而且活得更好、更有意义和价值。那么在活着的前提下,区分人生境界、人生价值和意义的不同层面的标准有哪些呢?          1、为基本的生存而活    这类人要么由于极端的愚昧和无能,要么由于自身处在极端的环境(如病残、受社会动荡因素的冲击、灾难、环境恶劣等),他首先只能为解决最起码的生存,也就是只以解

2016-06-13 09:58:50 2707

原创 电灯小游戏

1 unit Unit6; 2 3 interface 4 5 uses 6 Windows, Messages, SysUtils, Variants, Classes, Graphics, Controls, Forms, 7 Dialogs, bsSkinData, BusinessSkinForm, bsSkinCtrls, ImgList,

2016-06-13 09:58:21 422

原创 select 函数实现 三种拓扑结构 n个客户端的异步通信 (完全图+线性链表+无环图)

一、这里只介绍简单的三个客户端异步通信(完全图拓扑结构)1 1 //建立管道2 2 mkfifo 12 13 21 23 31 32 open顺序: cl1 读 , cl2 cl3 向 cl1写 cl2 读 , cl1 cl3 向 cl2写 cl3 读 , cl1 cl2 向 cl3写  顺序的规律就是 第i个 客户端读 其他各个客户端

2016-06-13 09:57:30 979

原创 计算器(delphi)

1 unit Unit1; 2 3 interface 4 5 uses 6 Windows, Messages, SysUtils, Variants, Classes, Graphics, Controls, Forms, 7 Dialogs, StdCtrls, bsSkinData, BusinessSkinForm, Mask, bsSk

2016-06-13 09:56:24 856

原创 CentOS 下 Codeblocks 的 安装 + 汉化 以及 基本使用介绍

Codeblocks 安装注:在root用户下运行下列命令  1.安装gcc,需要c和c++两部分,默认安装下,CentOS不安装编译器的,在终端输入以下命令即可 yum install gcc yum install gcc-c++  2.安装gtk2-devel,因为默认已经安装了正式产品需要的支持库,但是没有安装开发所需要的文档. yum install gt

2016-06-13 09:56:19 601

原创 关于阿里如何吸引大学生用户理财的一些个人看法

个人算是比较早的使用阿里的余额宝,到了今天,虽然身边也有很多同学在使用,但是我不认为阿里的互联网金融已经真正的渗透到大学生的群体中来了。一、吸引大学生用户理财的困难之处  其实我觉得阿里也并不准备硬要吸引大学生用户理财,因为这的确有几点困难的地方。  1、阿里不够了解大学生用户群体  2、大学生没多少钱  3、大学生没有足够的理财意识  4、网络金融没有走进大学生与他们家长

2016-06-13 09:56:15 1095

原创 余额宝个人用户体验

以下仅为个人使用余额宝后所体验而感到的不足:  一、升级后用户界面的变化。   原本刚刚推出余额宝的时候,支付宝APP进去后是有三个卡片窗口的。一片的支付宝,另外一片余额宝,大三片是转账、手机充值等应用。 升级之后,便变成如上图所示的UI了。 个人认为,把余额宝和转账、手机充值等放在一个小窗口,用户体验不好。起码,刚升级那会儿,我用的十分别扭,主要是因为——要找"

2016-06-13 09:56:13 1562

原创 学生信息管理系统(C实现)

头文件 1 #ifndef __SIMS__ 2 #define __SIMS__ 3 #include 4 #include 5 #includestring.h> 6 #include 7 #include 8 #include 9 #define PWD_LEN 10 10 #define NAME_LEN 20 11

2016-06-13 09:56:01 9695

原创 奖学金评分系统(系统分析与设计版与Delphi实现代码)

一、系统规划1.1 项目背景介绍在奖学金评比过程中,学生综合测评是学校普遍采用的评比手段。对学生实施综合素质测评的目的在于正确评价学生的综合素质,为评奖学金提供依据,实现学生教育管理工作的标准化、制度化和科学化,引导和促进学生德、智、体、美全面发展。  1.2 现存问题及系统目标目前我国普遍高校学生奖学金评比还停留在纸质的阶段,许多工作需要传统的手工操作,这不仅浪费了大量的人力

2016-06-13 09:55:56 4658

原创 奖学金评比系统(数据库系统设计版)

文档目的在奖学金评比过程中,学生综合测评是学校普遍采用的评比手段。对学生实施综合素质测评的目的在于正确评价学生的综合素质,为评奖学金提供依据,实现学生教育管理工作的标准化、制度化和科学化,引导和促进学生德、智、体、美全面发展。目前我国普遍高校学生奖学金评比还停留在纸质的阶段,许多工作需要传统的手工操作,这不仅浪费了大量的人力物力资源,而且由于人工管理存在着许多不可控因素,导致学生奖学金评比操作不规范,测评结果不全面,不能客观准确地反应学生的综合素质。

2016-06-13 09:55:53 18328 1

原创 Crackme3 破解教程

Crackme3 破解教程    1、先用PEiD对 Crackme3进行 壳测试 点击File右边的按钮,选中Crackme3   结果如下图所示:       即 无壳。  试运行软件  点击 Register now!  结果如下:  用Ollydbg开始破解

2016-06-13 09:55:41 2827

原创 链表操作算法题合集

0.单链表的增、删、改、查(无头指针) 1 #include 2 #include 3 struct Node 4 { 5 int val; 6 Node * next; 7 }; 8 9 Node* Node_Insert(Node* First,int val) 10 { 11 Node* p=

2016-06-13 09:55:34 871 2

SMP2020微博情绪分类技术评测数据集

SMP2020微博情绪分类技术评测数据集 本次技术评测使用的标注数据集由哈尔滨工业大学社会计算与信息检索研究中心提供,原始数据源于新浪微博,由微热点大数据研究院提供,数据集分为两部分。     第一部分为通用微博数据集,该数据集内的微博内容是随机获取到微博内容,不针对特定的话题,覆盖的范围较广。     第二部分为疫情微博数据集,该数据集内的微博内容是在疫情期间使用相关关键字筛选获得的疫情微博,其内容与新冠疫情相关。     因此,本次评测训练集包含上述两类数据:通用微博训练数据和疫情微博训练数据,相对应的,测试集也分为通用微博测试集和疫情微博测试集。参赛成员可以同时使用两种训练数据集来训练模型。     每条微博被标注为以下六个类别之一:neutral(无情绪)、happy(积极)、angry(愤怒)、sad(悲伤)、fear(恐惧)、surprise(惊奇)。     通用微博训练数据集包括27,768条微博,验证集包含2,000条微博,测试数据集包含5,000条微博。     疫情微博训练数据集包括8,606条微博,验证集包含2,000条微博,测试数据集包含3,000

2022-12-29

jblas-1.2.4-SNAPSHOT

里MLlib库需要依赖[jblas线性代数库](http://jblas.org/),如果大家编译jblas的jar包有问题,可以获取。把jar包加到lib文件夹后,记得在spark-env.sh添加配置

2016-06-26

Spark机器学习文本处理数据集

为了说明概念,我们将使用一个非常有名的数据集,叫作20 Newsgroups;这个数据集一般用来做文本分类。这是一个由20个不同主题的新闻组消息组成的集合,有很多种不同的数据格式。对于我们的任务来说,可以使用按日期组织的数据集。

2016-06-20

Spark机器学习推荐模型数据集

我们将使用推荐引擎中使用的电影打分数据集,这个数据集主要分为三个部 分:第一个是电影打分的数据集(在u.data文件中), 第二个是用户数据(u.user),第三个是电影数据(u.item)。除此之外,我们从题材文件中获取了每个电影的题材(u.genre)。

2016-06-18

Spark机器学习回归模型数据集

为了阐述本章的一些概念,我们选择了bike sharing数据集做实验。这个数据集记录了bike sharing系统每小时自行车的出租次数。另外还包括日期、时间、天气、季节和节假日等相关信息。

2016-06-15

Spark机器学习分类模型的数据集

考虑到推荐模型中的 MovieLens 数据集和分类问题无关,本章将使用另外一个数据集。这个 数据集源自 Kaggle 比赛,由 StumbleUpon 提供。比赛的问题涉及网页中推荐的页面是短暂(短暂 存在,很快就不流行了)还是长久(长时间流行)。

2016-06-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除