2016年12月_柱子89

转载微信公众平台开发获取用户基本信息(nickname等)

[php] view plain copy $appid = "wxXXXXXXXXXXXXXXXXXX"; $appsecret = "XXXXXXXXXXXXXXXXXXXXXXXXXXXXXX"; $url = "https://api.weixin.qq.com/cgi-bin/token?grant_t

2016-12-21 10:46:45 1285

转载微信公众平台开发[3] —— 微信公众号支付功能(PHP)

直言无讳，我就是一个初涉微信开发的小白，写这篇博客的原因：一是为了给自己做下备忘记录，以便以后能回忆这条程序猿的坎坷路；二是希望能帮助到同是自学开发的小白们；三是对那些不屑一顾于我等尘埃的大牛们的控诉，小白的道路坎坷，你们凭什么总要一副高高在上的样子？我等敬而不畏... 背景介绍：随着智能手机的普及，移动支付下的微信、支付宝所提供的便利需求不言而喻，好吧，至少我周围

2016-12-19 16:25:56 386

转载在eclipse启动tomcat时遇到超时45秒的问题

在eclipse启动tomcat时遇到超时45秒的问题：Server Tomcat v7.0 Server at localhost was unable to start within 45 seconds. If the server requires more time, try increasing the timeout in the server editor.网上解决

2016-12-15 10:17:54 446

转载 git命令之git clone用法

转：http://blog.csdn.NET/wangjia55/article/details/8818845在使用git来进行版本控制时，为了得一个项目的拷贝(copy),我们需要知道这个项目仓库的地址(Git URL). Git能在许多协议下使用，所以Git URL可能以ssh://, http(s)://, git://,或是只是以一个用户名（git 会认为这是一个ssh

2016-12-14 13:17:22 562

原创 mysql update 更新两张表的查询结果

UPDATE `table1`INNER JOIN table2ON table2.Id =`table1`.table2IdSET `table1`.name=table2.nameWHERE `table1`.age == '12' and `table1`.age == '31'

2016-12-07 21:16:22 581

转载聚类算法实践（一）——层次聚类、K-means聚类

转自http://blog.csdn.net/sky88088/article/category/6245491因为百度云的文章里面有些图片丢失了，想起这篇东西之前被一个中国统计网转发过，所以自己搜了一下想直接把图搞回来，结果发现到处转载的也有不少，自己现在发倒好像是抄袭似的。其实这篇文章里面特别有价值的东西不算太多，PCCA算是一个知道的人不多而且也挺有意义的算法，谱聚类的物理解释也

2016-12-05 11:15:19 1232

转载【机器学习】K-means聚类算法初探

算法代码 Github传送门：K-MeansCluster@skyline0623数据聚类是对于静态数据分析的一门技术，在许多领域内都被广泛地应用，包括机器学习、数据挖掘、模式识别、图像分析、信息检索以及生物信息等。聚类是把相似的对象通过静态分类的方法分成不同的组别或者更多的子集，这样让在同一个子集中的成员对象都有相似的一些属性，常见的包括在坐标系中更加短的空间距离等。我们拿2

2016-12-05 11:04:05 581

转载【hadoop】大规模中文网站聚类kmeans的mapreduce实现（下）

接上一篇，上一篇主要是计算tfidf，下篇主要是文档向量的建立以及kmeas的实现。四网页向量以及初始中心点选取网页向量以及初始中心点的选取在 DocumentVetorBuid 中的一个 Mapreduce 中完成,中间过程如下表所示。输出类似如下:16 26272:0.00587873/22456:0.00264058/22502:0.0

2016-12-05 10:46:18 453

转载利用Hadoop平台进行大规模（百万以上）中文网页聚类

这是我本学期课程《高级数据库》的一个作业，目的是让熟悉一下Hadoop平台，发出来希望对需要的人有点帮助。一、题目要求大规模（百万以上）中文网页聚类分布式计算平台：Hadoop数据输入：未经处理的原始网页数据输出：对每一个网页进行聚类标注输入数据说明：每一行为一个网页。Key (LongWritable) 每一个网页的全局ID号Value (Text) 网页内容

2016-12-02 19:28:18 821

转载使用libsvm实现文本分类

文本分类，首先它是分类问题，应该对应着分类过程的两个重要的步骤，一个是使用训练数据集训练分类器，另一个就是使用测试数据集来评价分类器的分类精度。然而，作为文本分类，它还具有文本这样的约束，所以对于文本来说，需要额外的处理过程，我们结合使用libsvm从宏观上总结一下，基于libsvm实现文本分类实现的基本过程，如下所示：选择文本训练数据集和测试数据集：训练集和测试集都是类标签已知的；

2016-12-02 19:21:19 833

转载 Hive的几种数据导入方式

好久没写Hive的那些事了，今天开始写点吧。今天的话题是总结Hive的几种常见的数据导入方式，我总结为四种：（1）、从本地文件系统中导入数据到Hive表；（2）、从HDFS上导入数据到Hive表；（3）、从别的表中查询出相应的数据并导入到Hive表中；（4）、在创建表的时候通过从别的表中查询出相应的记录并插入到所创建的表中。我会对每一种数据的导入进行实际的操作，因为纯粹的文字让

2016-12-02 19:04:38 311

转载开源爬虫框架各有什么优缺点？

开发网络爬虫应该选择Nutch、Crawler4j、WebMagic、scrapy、WebCollector还是其他的？这里按照我的经验随便扯淡一下：上面说的爬虫，基本可以分3类：1.分布式爬虫：Nutch2.JAVA单机爬虫：Crawler4j、WebMagic、WebCollector3. 非JAVA单机爬虫：scrapyPython 爬虫的工具列表附Github代码下载链接

2016-12-02 17:37:31 401

转载【Nutch】InjectorJob

源码分析package org.apache.nutch.crawl;首先呢，InjectorJob类存在于包org.apache.nutch.crawl内。public class InjectorJob extends NutchTool implements Tool它扩展了NutchTool类并实现了Tool类。并实现了NutchTool类的

2016-12-02 16:56:22 374

转载 nutch 在hadoop环境下过滤抓取url的设置

摘要: 有个网站有问题，导致nutch 抓取超过24小时，故修改 master主机的nutch conf下regex-urlfiter.txt，发现没有效果。nutch在Hadoop环境下运行，master 和 slave 主机都要读取regex-urlfilter.txt，这个文件应该放在哪儿？分析：nutch在单机和hadoop环境下运行不一样， nutch目录下有一个runtime子

2016-12-02 16:44:31 530

最近写爬虫需要降低内存的占用，现在用的是HashSet进行已爬URL的过滤，所以想到用布隆过滤器(Bloom Filter)来替换，从而减少内存的开销。因为HashSet内部是由HashMap处理的，HashMap则通过计算一个int型的hash值得出信息指纹，所以一个信息指纹占4字节，但是由于哈希的存储效率一般只有一半，所有说一条URL就需要8字节的信息指纹，而Bloom Filter 则只需要

2016-12-02 16:31:00 466

转载 sql查询表中字段值相同的数据记录

表T中有字段id,name,age(注：id有相同值) 查询id相同且大于1的数据记录select * from T a where exists (select id from T where id=a.id group by id having count(*)>1)

2016-12-02 16:29:09 2076

转载 DeepFace--Facebook的人脸识别

连续看了DeepID和FaceNet后，看了更早期的一篇论文，即FB的DeepFace。这篇论文早于DeepID和FaceNet，但其所使用的方法在后面的论文中都有体现，可谓是早期的奠基之作。因而特写博文以记之。DeepFace基本框架人脸识别的基本流程是：detect -> aligh -> represent -> classify人脸对齐流程分为

2016-12-02 12:10:37 481

转载 FaceNet--Google的人脸识别

引入随着深度学习的出现，CV领域突破很多，甚至掀起了一股CV界的创业浪潮，当次风口浪尖之时，Google岂能缺席。特贡献出FaceNet再次刷新LFW上人脸验证的效果记录。本文是阅读FaceNet论文的笔记，所有配图均来自于论文。转载请注明：http://blog.csdn.net/stdcoutzyx/article/details/46687471FaceNet

2016-12-02 12:01:32 924

转载分析用户的访问偏好

本文主要介绍了在Hadoop平台下统计分析Web用户的访问偏好，项目流程如下图所示：数据采集项目流程中，提取用户访问页面的URL和URL对应的正文内容，由本人在公司参与一起开发的爬虫系统爬取相应门户网站（新浪）上的数据。爬虫核心代码见我的另一篇文章：httpclient使用详解（爬虫）爬虫的框架使用的是Java多线程开发，由于数据时效性不是很强，

2016-12-01 19:44:48 427

转载基于hadoop的分词程序（ICTCLAS分词器）

0、【前言】今天下午坑了我一下午，总算在Hadoop上把ICTCLAS分词器跑起来了，其实不是mapreduce化困难，而是一个很小的问题，我是很早就完过ICTCLAS分词器的，因为现在需要分词的内容太多，所以才想这把Java程序mapreduce化的，但是这就意味着要在Linux下的eclipse跑ICTCLAS分词系统，我一直没发现在windows下和linux下用的包不一样，就这样坑了我一下

2016-12-01 16:14:36 679

转载基于hadoop的分布式分词程序（庖丁分词）

一、使用的分词包——庖丁分词器介绍1.1、简介：庖丁系统是个完全基于lucene的中文分词系统，它就是重新建了一个analyzer，叫做PaodingAnalyzer，这个analyer的核心任务就是生成一个可以切词TokenStream。1.2、优点：这里之所以使用庖丁主要考虑到庖丁的分词效率比其他的分词器要高，1.3、缺点：其分词有一

2016-12-01 16:12:04 1655

转载基于Hadoop2.6.0 + ICTCLAS2015的并行化中文分词

1、在Linux下安装ICTCLAS2015 •1) 环境　　Eclipse、Linux、ICTCLAS2015、jna-platform-4.1.0.jar（ JNA类库）•2) 安装ICTCLAS2015　　在Linux下的 Eclipse中新建MapReduce Project，假设工程名为RF；　　下载并解压ICTCLAS2015,将ICT

2016-12-01 16:01:07 633

转载基于svm的中文文本自动分类系统

今天刚改完成了软件工程的大作业展示，即：基于内容的文本分类系统，使用libsvm 进行分类。在百度谷歌了很久之后，发现很少有这样的源码可以下载，本人便想着写完之后上传上去。首先介绍一下流程： 1.先使用中科院的分词器ICTLAS对训练集进行分词 2.将所有的词构建成一个字典，以label item的形式，后面svm要用到。如：1 中国3

2016-12-01 15:45:22 380

转载 Hadoop学习之网络爬虫+分词+倒排索引实现搜索引擎案例

本项目实现的是：自己写一个网络爬虫，对搜狐(或者csdn)爬取新闻(博客)标题,然后把这些新闻标题和它的链接地址上传到hdfs多个文件上，一个文件对应一个标题和链接地址，然后通过分词技术对每个文件中的标题进行分词，分词后建立倒排索引以此来实现搜索引擎的功能，建立倒排索引不熟悉的朋友可以看看我上篇博客 Hadoop–倒排索引过程详解首先要自己写一个网络爬虫由于我开始写爬虫的时候

2016-12-01 15:25:41 727

gywtzh0889的专栏