自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

转载 windows下PyCharm运行和调试scrapy

摘要 Scrapy是爬虫抓取框架,Pycharm是强大的python的IDE,为了方便使用需要在PyCharm对scrapy程序进行调试 python PyCharm Scrapy scrapy指令其实就是一个python的运行脚本pyCharm是一个强大的pythonIDE在运行scrapy库时,其实是相当于运行一个python脚本:#!/usr/bin/pyth

2016-05-30 15:20:13 1223

原创 最短编辑距离

描述:设A和B是2个字符串。要用最少的字符操作将字符串A转换为字符串B。这里所说的字符操作包括:(1)删除一个字符;(2)插入一个字符;(3)将一个字符改为另一个字符。将字符串A变换为字符串B所用的最少字符操作数称为字符串A到B的编辑距离,记为d(A,B)。试设计一个有效算法,对任给的2个字符串A和B,计算出它们的编辑距离d(A,B)。要求:输入:第1

2016-05-07 21:51:02 1072

原创 简要描述一下Hadoop, Spark, MPI三种计算框架的特点以及分别适用于什么样的场景

简述:a)     Hadoop基于分布式文件系统HDFS的分布式批处理计算框架。适用于数据量大,SPMD(单程序多数据)的应用。b)     Spark基于内存计算的并行计算框架。适用于需要迭代多轮计算的应用。c)      MPI基于消息传递的并行计算框架。适用各种复杂应用的并行计算。支持MPMD( 多程序多数据) ,开发复杂度高详细:1,Hadoop是

2016-05-06 20:17:21 3056

原创 基于Hadoop的K-means聚类算法的实现

K-means算法的MapReduce并行化实现1.K-means聚类算法的基本思路 假设把样本集分为K类,算法描述如下:(1).首先在数据集合中随机选取k个点作为k个星团的质心(2)然后计算每个点到k个质心的距离,将其归类为距离最近的那个质心所在的类,这样每个点都有了所属的类别(3)对每个聚类中所有的点的坐标取平均值,将其设为新的质心(4)重复迭代第二步和第三步,直到质心

2016-05-04 16:33:33 4123

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除