关闭

Scrapy简介

Scrapy 框架 Scrapy,Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。 Scrapy吸引人的地方在于它是一个框架,任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类,如BaseSpider、sitemap爬虫等,最新版本又提供了web2.0爬虫的支持。 整...
阅读(29) 评论(0)

Word2Vector

Word2vec 词向量的概念 将 word映射到一个新的空间中,并以多维的连续实数向量进行表示叫做“Word Represention” 或 “Word Embedding”。自从21世纪以来,人们逐渐从原始的词向量稀疏表示法过渡到现在的低维空间中的密集表示。用稀疏表示法在解决实际问题时经常会遇到维数灾难,并且语义信息无法表示,无法揭示word之间的潜在联系。而采用低维空间表示法,不但解决了...
阅读(21) 评论(0)

IntelliJ IDEA 运行Hadoop2.7.0 wordcount 实例

IntelliJ IDEA 运行Hadoop2.7.0 wordcount 实例 背景        Hadoop2.7.0在虚拟机上安装完成,core-site.xml中配置的fs.defaultFS 端口为9000。 1 新建maven项目 2 配置pom.xml 由于我虚拟机中的Hadoop版本为2.7.0,所以这里的maven的Hadoop版本必须对应,不然会出错。具体配...
阅读(1592) 评论(0)

Hadoop2.7.0安装问题

Hadoop2.7.0安装问题 HDFS Web页面DataNodes 显示问题 当安装成功后,各个节点JPS均正常,在HDFS的Web页面的Overview页面显示Live Nodes的个数为3,但是在具体细节的Datanodes页面只有一个,具体如下: 以上情况纯属正常,因为此时datanode里面的数据为空,所有仅显示一个,当你上传文件至HDFS时,即可正...
阅读(329) 评论(0)

Hadoop2.7 安装

Hadoop2.7 安装 参考:http://www.linuxidc.com/Linux/2015-01/112029.html 机器准备 192.168.72.130 master 192.168.72.131 slave1 192.168.72.132 slave2 192.168.72.133 slave3 目录 安装JDK 配置host文件 ...
阅读(123) 评论(0)

协同过滤算法

协同过滤算法 算法介绍 关于协同过滤的一个最经典的例子就是看电影,有时候不知道哪一部电影是我们喜欢的或者评分比较高的,那么通常的做法就是问问周围的朋友,看看最近有什么好的电影推荐。在问的时候,都习惯于问跟自己口味差不多的朋友,这就是协同过滤的核心思想。    协同过滤是在海量数据中挖掘出小部分与你品味类似的用户,在协同过滤中,这些用户成为邻居,然后根据他们喜欢的东西组织成一个排...
阅读(214) 评论(0)

First Head-设计模式:代理模式

代理模式 定义 代理模式为另一个对象提供一个替身或占位符以控制对这个对象的访问。 需求 糖果机经理想要查看糖果的运行状态,但是真正的糖果机并不想让经理看到别的实现,所以通过远程代理访问某个方法。 传统设计 判断产看人的权限,然后大量if语句来判断是否访问。 Decorator模式 试用范围 需要控制对象访问权限的时...
阅读(2587) 评论(0)

First-Head 设计模式:状态模式

状态模式 定义 状态模式允许对象在内部状态改变时改变它的行为,对象看起来好像修改了它的类。 需求 糖果机有多个状态,不同状态都有相应的办法,所以需要很多if条件,如果增加一个状态的话就需要改变所有的代码。 传统设计 对每个方法写四个if(如果有四个状态),如果增加一个状态,就在if中增加一个if条件。 Decorator模式 ...
阅读(2283) 评论(0)

First-Head:迭代器模式和组合模式

迭代器模式 定义 迭代器模式提供一种方法顺序访问一个聚合对象中的各个元素,而又不暴露其内部的表示。 需求 煎饼屋和午餐店要合并,但是煎饼屋采用arraylist实现,午餐店采用数组实现,现在服务员要告诉顾客有哪些食品。 传统设计 两个for循环分别读取arraylist和数组,然后打印。当还有一个比如说咖啡店时,就需要再来一个for循环,太不好了。 ...
阅读(2210) 评论(0)

Frist Head-设计模式:模板方法模式

模板方法模式 定义 模板方法模式在一个方法中定义一个算法的骨架,而将一些步骤延迟到子类之中。模板方法使得子类可以在不改变算法结构的情况下,重新定义算法中的某些步骤。 需求 实现煮咖啡和煮茶,两者之间的步骤及其相似。 传统设计 将一样的步骤放在父类,不一样的步骤放在子类,然后子类继承。 Decorator模式 试用范围 ...
阅读(2060) 评论(0)

First Head-设计模式:适配器模式和外观模式

适配器模式 定义 适配器模式将一个类的接口,转换成客户期望的另一个接口。适配器让原本不兼容的类可以无间合作。 需求 客户需要一只鸭子,但是没有鸭子,所以需要用火鸡来冒充。 传统设计 因为火鸡和鸭子是不同的类,所有无法适配。 Decorator模式 试用范围 适用于两个接口不一样是,但是需要冒充的情况下。 外...
阅读(1947) 评论(0)

First Head-设计模式:命令模式

命令模式 定义 命令模式将"请求"封装成对象,以便使用不同的请求,队列或日志来参数化其他对象、命令模式也支持可撤销的操作。 需求 一个遥控器控制不同的多个设备开关,遥控器上有6个设备的所有开关(12个)加上一个撤销上一个操作的按钮,每个设备的开关等是不同的类的不同方法,方法名也不一样,如何实现这个类。 传统设计 12个开关分别绑定不同的设备的开关方法...
阅读(3055) 评论(0)

Head First-设计模式:单件模式

单件模式 定义 单件模式确保一个类只有一个实例,并提供一个全局访问点。 需求 巧克力工厂使用锅炉制造巧克力,锅炉只能有一个实例。 传统设计 使用静态方法来保证一个实例。 Decorator模式 试用范围 当某个类只能有一个实例时。...
阅读(3055) 评论(0)

数据结构与算法分析:算法设计技巧

算法设计技巧 贪婪算法 顾名思义,贪心算法总是作出在当前看来最好的选择。也就是说贪心算法并不从整体最优考虑,它所作出的选择只是在某种意义上的局部最优选择。当然,希望贪心算法得到的最终结果也是整体最优的。虽然贪心算法不能对所有问题都得到整体最优解,但对许多问题它能产生整体最优解。如单源最短路经问题,最小生成树问题等。在一些情况下,即使贪心算法不能得到整体最优解,其最终结果却是最优解的很好...
阅读(3156) 评论(0)

数据结构与算法分析:图论

图论算法 定义 路径:由一个顶点序列使得这样一条路径。 环:路径,路径长为0,为环。 简单路径:不包含环,所有顶点是互异的,但是第一个和最后一个可以是相同的。 圈:满足的路径称为圈,若各该路径是简单路径,则为简单圈。 连通的无向图:无向图中的每个顶点之间都有路径。 强连通的有向图:每个顶点之间都有路径。 有向图的基础图:去掉有向图上的弧所...
阅读(2884) 评论(0)
47条 共4页1 2 3 4 下一页 尾页
    个人资料
    • 访问:198133次
    • 积分:2331
    • 等级:
    • 排名:第17034名
    • 原创:35篇
    • 转载:8篇
    • 译文:0篇
    • 评论:7条
    最新评论