自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(22)
  • 资源 (1)
  • 收藏
  • 关注

原创 spark python 线性回归

最近在使用spark机器学习mllib库中的线性回归做一些预测,在使用遇到了一些问题以及解决办法:使用数据的特点,十二个属性,且每个属性值都是整数,范围在(0-30)结果值在(0-500)之间;问题:使用该数据直接训练模型时结果偏差很大,每个预测系数都在10的100次方以上,且迭代次数越多偏差越大解决办法:将数据归一化到[-1,1]上,然后再去训练模型,预测结果相对较好

2016-01-01 16:58:13 918

原创 找出最长递增子序列

例如给定一个序列:1,5,2,4,8,3,7,11,17,5,20,11,其中最长递增子序列为:1,2,4,8,11,17,20求解思路:可以使用动态规划解决此问题,用两个数组dp[n]和pos[n],其中dp用来表示到第i位时的最长子序列长度,而pos表示在这个最长子序列中上一个元素的位置。这个算法的空间复杂度为O(n),时间复杂度为n的平方。具体代码为:

2015-09-27 10:52:35 1136

原创 在一个字符串中找出第一次重复出现的字符

对于一个字符串,请设计一个高效算法,找到第一次重复出现的字符。给定一个字符串(不一定全为字母)A及它的长度n。请返回第一个重复出现的字符。保证字符串中有重复字符,字符串的长度小于等于500。测试样例:"qywyer23tdd",11返回:y思路:使用一个hash数组保存每个变量是否出现过,当第一个出现过时直接返回,由于题目中指出肯定有重复的字符,所以这点不需做考虑;

2015-09-20 22:54:05 4419 2

原创 在排序数组中找出一个整数第一次出现的位置

对于一个有序数组,我们通常采用二分查找的方式来定位某一元素,请编写二分查找的算法,在数组中查找指定元素。给定一个整数数组A及它的大小n,同时给定要查找的元素val,请返回它在数组中的位置(从0开始),若不存在该元素,返回-1。若该元素出现多次,请返回第一次出现的位置。测试样例:[1,3,5,7,9],5,3返回:1int getPos(vector A, int n,

2015-09-20 22:44:02 1551

原创 美团笔试题之一:求编辑距离

今年美团的笔试题目之一,和LeetCode上的一个求匹配的问题的思路差不多。题目大意:给定一个源字符串src=“string”,然后给定一个目标字符串dst=“strim”,可以通过添加、删除和替换字符使得源字符串转化为目标字符串,比如给的例子中可以将“n"替换成“m”,然后删除“g”,则源字符串转换为目标字符串,源字符串变换为目标字符串时经过的最小动作(添加、删除和替换)数为源字符串到目标字

2015-09-20 22:24:17 821

原创 360今年笔试题之一:整数分解为素因子,并用用九字段数字表示出来的代码

360今年的笔试编程题之一,题目大意是:给定一个整数,将该整数分解为素因子的乘机,并用九字段的数字表示出来,如下图所示10可以表示为2X5:#include "stdafx.h"#include#include#include #includeusing namespace std;bool panduansushu(int num){ int i = 2; for (i =

2015-09-20 21:47:06 455

原创 python中list去重问题

python中几种list去重的方法:第一种:使用内置的set结构可以快速的实现list去重。l1 = ['b','c','d','b','c','a','d','a']l2 = list(set(l1))print(l2)第二种:使用原list元素构建字典,然后取所有keys就可以实现list去重。l1 = ['b','c','d','b','c','a','d','a']l2 =

2015-09-01 23:25:22 586

原创 python 中如何判断一个字符串中包不包含汉字

下面的程序可以判断python字符串中包不包含汉字:# -*- coding:utf-8 -*-import redef has_hz(contents): Pattern = re.compile(u'[\u4e00-\u9fa5]+') match = Pattern.search(contents) if match: return

2015-09-01 14:33:25 2592

原创 常用分类算法总结

分类任务就是明确对象属于哪个预定义的目标类。其中预定义的目标类是离散时为分类,连续时为回归。常用的分类算法有决策树分类法,基于规则的分类算法,神经网络,支持向量机和朴素贝叶斯分类法。下面主要介绍各个算法的应用场景和一些优缺点(1)决策树

2015-08-30 09:13:56 27088

原创 分布式搜索(二)

下面主要介绍一下分布式元搜索:分布式搜索:由多台计算机组成的搜索引擎元搜索就是只每个索引服务器都拥有独立的结构。分布式元搜索的各个单元相互独立,每个检索节点中的DocID(文档标识)不构成重复,也就是说一篇文档不可能同时出现在两台或者两台以上的机器上。这里我是这么理解的,每个服务器上包含的文档都是唯一的(不考虑备份的),但是每个服务器包含的关键词是有重复的,这样使得分布式元搜索引擎

2015-08-25 23:44:54 398

原创 VBE6EXT.OLB不能加载问题

下载mathtype6.9安装之后,打开word出现了VBE6EXT.OLB不能加载问题,百度了一下,解决方法是在网上下载 VBE6EXT.OLD文件,并放置在C:\Program Files\Common Files\Microsoft Shared\VBA\VBA7.1目录下VBE6EXT.OLB下载地址:http://www.wenjian.net/down/vbe6ext.olb_

2015-08-25 12:26:41 867

转载 数据挖掘中的维灾难

转载:http://blog.csdn.net/zbc1090549839/article/details/38929215一.引言这里我们将要讨论所谓的“维数灾难”,同时结合过拟合现象来解释它在分类器学习中的重要性。举一个分类应用的简单例子,假设我们有一系列的图片,每张图片的内容可能是猫也可能是狗;我们需要构造一个分类器能够对猫、狗自动的分类。首先,要寻找到一些能够描述猫

2015-08-24 23:07:02 2100

原创 分布式搜索引擎介绍(一)

Google就是典型的分布式搜索引擎,它由上万台计算机组成。下面主要讲一下分布式搜索引擎的核心问题以及主要的分布式搜索引擎设计方法。分布式搜索引擎的最主要的核心问题:(1)分布的信息获取和计算,以及对此进行的数据统一;          这里面包括爬虫或者相应的数据获取机制的分布,对信息进行加工的统一管理。(2)数据处理后的分布存储和管理;          主要是文件的准确定

2015-08-19 23:26:25 677

转载 wildcard matching

转载:http://www.cnblogs.com/codingmylife/archive/2012/10/05/2712585.html‘?’匹配任意单个字符,‘*’匹配任意字符序列(包括空字符序列)。如果匹配整个串返回true。例:isMatch("aa","a") → falseisMatch("aa","aa") → trueisMatch("aaa","aa

2015-08-18 21:54:34 322

原创 python 使用pymsql连接数据库

python3.4中不能使用python2.7中的MySQLdb连接数据库,取而代之的是pymysql。安装:python3.4自带pip,可以在命令行窗口直接使用pip install pymysql 语句进行安装。可能安装python3.4之后不能使用pip的几个原因:1,要将python3.4直接安装在C(或者任何一个盘下面)不能安装在program files等文件下;

2015-08-18 20:34:37 5723

原创 LeetCode Regular Expression Matching

题目大意:“.”可以代表任意一个字符,“*”可以代表0个或者多个任意字符,问两个字符串是否相匹配Code:

2015-08-17 23:27:40 344

原创 TCP拥塞控制方法

在讲TCP控制算时先定义几个概念:网络资源:在计算机网络中的链路容量(即带宽)、交换节点中的缓存和处理机;拥塞:在某一段时间,若对网络中某一资源的需求超过了该资源所提供的可用部分的现象;可以把拥塞的条件表示为如下简单的关系式:下面讲一下几种控制拥塞的方法:慢开始、拥塞避免、快重传、快恢复1,慢开始和拥塞避免拥塞窗口cwnd(congestion window):大小

2015-08-15 16:54:54 5294

原创 推荐算法

最近刚刚参加实习,主要工作是做推荐算法,下面主要总结一下这几天看到的内容。常用的推荐算法:1,基于内容的推荐算法;2,协同过滤的推荐算法;3,基于关联规则推荐;4,基于效用的推荐;常用的推荐算法适用场景也不一样,基于内容的推荐算法和协同过滤的推荐算法比较适合向有意向但是还没有购买的用户进行推荐,而基于关联规则的推荐算法更适用于已经购买了这一篇文章主要介绍一下基于内容的推

2015-08-15 14:54:36 853

转载 Manacher算法--O(n)回文子串算法

今天偶然看到O(n)求最大回文字串的算法,转载以防忘记!原文地址:http://blog.csdn.net/ggggiqnypgjg/article/details/6645824    首先:大家都知道什么叫回文串吧,这个算法要解决的就是一个字符串中最长的回文子串有多长。这个算法可以在O(n)的时间复杂度内既线性时间复杂度的情况下,求出以每个字符为中心的最长回文有多长, 

2015-08-15 14:49:33 342

转载 github使用教程

转载于 http://wuyuans.com/2012/05/github-simple-tutorial/                作者 Wuyuan'Bloggithub是一个基于git的代码托管平台,付费用户可以建私人仓库,我们一般的免费用户只能使用公共仓库,也就是代码要公开。对于一般人来说公共仓库就已经足够了,而且我们也没多少代码来管理,O(∩_∩)O~。下面是我

2015-07-23 20:23:19 353

原创 C语言声明的理解

可能因为菜的原因,个人感觉复杂的C语言声明的理解还是有一定难度的,下面结合《C专家编程》给出个人对C语言声明的一个理解。在《C专家编程》中给出了如下理解声明的一个规则:A   声明从它的名字开始读取,然后按照优先级顺序依次读取;B  优先级从高到低依次是:     B.1     声明中被括号括起来的那部分;     B.2     后缀操作符:

2015-04-29 22:29:06 325

转载 引用与指针

摘录自博客http://blog.csdn.net/etwdone/article/details/8717480指针和引用有什么分别;如果传引用比传指针安全,为什么?如果我使用常量指针难道不行吗? (1) 引用在创建的同时必须初始化,即引用到一个有效的对象;而指针在定义的时候不必初始化,可以在定义后面的任何地方重新赋值. (2) 不存在NULL引用,引用必须与合法的存

2015-04-22 13:12:02 299

数据挖掘:概念与技术(中文第三版)

数据挖掘经典书籍,入门者必读,值得一读。

2015-08-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除