2017年03月_柱子89

转载基于Hadoop 的分布式网络爬虫技术学习笔记

基于Hadoop 的分布式网络爬虫技术学习笔记一、网络爬虫原理Web网络爬虫系统的功能是下载网页数据，为搜索引擎系统提供数据来源。很多大型的网络搜索引擎系统都被称为基于 Web数据采集的搜索引擎系统，比如 Google、Baidu。由此可见 Web 网络爬虫系统在搜索引擎中的重要性。网页中除了包含供用户阅读的文字信息外，还包含一些超链接信息。Web网络爬虫系统正是通过网页中的超连接信息不断

2017-03-31 18:26:10 2429

转载 URL，URLConnection，HttPURLConnection的使用

URLConnection与HttPURLConnection都是抽象类，无法直接实例化对象。其对象主要通过URL的openconnection方法获得。值得注意的是：1.openConnection方法只创建URLConnection或者HttPURLConnection实例，但是并不进行真正的连接操作。并且，每次openConnection都将创建一个新的实例。2.open

2017-03-31 12:12:40 547

原创 centos 7下定时执行php脚本

1.vi /var/spool/cron/root打开root文件输入以下内容：59 23 * * * /usr/local/php/bin/php /home/wwwroot/phpscripht/test.php >> /home/wwwroot/phpscripht/log上面的意思就是每天23：59开始执行test.php./usr/local/php/bin/php 为ph

2017-03-29 09:47:36 3057

转载 PHP零基础遍历查询数据库结果集

使用mysql的方式访问$link = mysql_connect("localhost","root","snowdi");mysql_select_db("数据库");mysql_query("set names 操作数据库字符集");$result = mysql_query("select * from 表名");while($msg = mysql

2017-03-28 17:49:39 8782

转载 mahout vector 的产生方式

根据wiki mahout 产生 vector 的方式有2种： #1 from lucene index to vector Java代码 $MAHOUT_HOME/bin/mahout lucene.vector \ --output --field --dictOut > = 0}> > #2 from

2017-03-24 18:39:43 625

转载一个基于Mahout与hadoop的聚类搭建

mahout是基于hadoop的数据挖掘工具，因为有了hadoop，所以进行海量数据的挖掘工作显得更为简单。但是因为算法需要支持M/R，所以不是所有常用的数据挖掘算法都会支持。这篇文章会告诉你，如何使用hadoop + mahout搭出一个简易的聚类工具。第一步：搭建hadoop平台。我使用的是ubuntu 11.04，如果没有ubuntu的开发环境，就参考我的帖子《U

2017-03-24 18:38:34 478

转载最最最简单的URL聚类

我们要发现一个富文本中的http链接，发现一些群体行为，获取URL 第一步：提取http链接使用 Jsoup 来做 Java代码 Document doc = Jsoup.parse(stream.getText()) Elements links = doc.select("a[href]") for (Element element:

2017-03-24 18:33:59 1214

转载用户查询日志(SogouQ)之查询词WordCount

输入数据来源, 用户查询日志(SogouQ), 感谢搜狗实验室! 此次选择的是精简版(一天数据, 63MB, 解压后145MB), PS1: 日志原格式是GB2312编码, 一定要记得转成UTF-8PS2: 日志格式和格式说明: // 搜狗实验室的官方说明访问时间\t用户ID\t[查询词]\t该URL在返回结果中的排名\t用户点击的顺序号\t用户点击的URL, 这个格

2017-03-24 13:12:39 2211 5

转载日志分析 mapreduce sogou

数据来源：SogouQ统计信息：对每个查询中的查询词的数目进行统计代码如下：package Sogou;import java.io.IOException;import java.util.*;import org.apache.hadoop.fs.*;import org.apache.hadoop.conf.*;import o

2017-03-24 11:30:59 832

转载 Hive基于搜狗搜索的用户日志行为分析

问题导读1.本文是如何学习大数据的？2.用户查询中包含的中文、英文字数的平均个数,本文提出哪两个思路？3.用户访问应用的时间特点如何使用hive实现统计的？前言”大数据时代“，“大数据/云计算”，“大数据平台”，每天听到太多的大数据相关的词语，好像现在说一句话不跟大数据沾边都不好意思说自己是做IT的。可能这与整个IT圈子的炒作也有关联，某一个方面来看其实就是一营销术语。很多

2017-03-21 16:35:29 3626 1

原创 hadoop的WordCount按照value降序排序

package org.apache.hadoop.examples;import java.io.IOException;import java.util.Random;import java.util.StringTokenizer;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs

2017-03-20 18:29:27 3425 1

场景：小时候我们都使用过新华字典，妈妈叫你翻开第38页，找到“坑爹”所在的位置，此时你会怎么查呢？毫无疑问，你的眼睛会从38页的第一个字开始从头至尾地扫描，直到找到“坑爹”二字为止。这种搜索方法叫做顺序扫描法。对于少量的数据，使用顺序扫描是够用的。但是妈妈叫你查出坑爹的“坑”字在哪一页时，你要是从第一页的第一个字逐个的扫描下去，那你真的是被坑了。此时你就需要用到索引。索引记录了“坑”字在哪一页，你

2017-03-16 12:15:18 283

原创 hadoop中reduce input records不为0，而reduce output records却为0

可能由于在执行reducer之前，执行力combinie，combine的本质就是reduce。

2017-03-15 20:21:19 2086

原创 hadoop读取hdfs文件中的中文乱码解决办法

FileSystem fs = FileSystem.get(conf);Path file = new Path("hdfs://localhost:9000/wordcount/data/word.txt");FSDataInputStream inStream = fs.open(file);BufferedReader bf=new BufferedReader(new Inp

2017-03-15 20:19:35 15200

原创 hadoop中在map和reduce方法中调试代码

Counter countPrint = context.getCounter("map方法--------------------------------------",str_name);

2017-03-15 20:14:26 624

原创 apache所有软件以及版本下载地址

http://archive.apache.org/dist/

2017-03-08 13:22:27 930

转载 MongoDB数据表基本操作

查看全部数据表> use ChatRoomswitched to db ChatRoom> show collectionsAccountChatsystem.indexessystem.users 创建数据表> db.createCollection("Account"){"ok":1} > db

2017-03-06 17:46:57 319

原创 mysql日期自动加1天

UPDATE `mytable` SET time2 = DATE_ADD(time1,INTERVAL 1 DAY) WHERE status=1

2017-03-06 15:18:11 35223 1

原创 Java中mysql拼接单引号和变量

UPDATE `mytable` SET status= "+status+" , completetime = '"+df.format(new Date())+"' WHERE Id="+Id;

2017-03-06 15:16:17 3217

转载 Navicat for MySQL使用手记(下）--实现自动备份数据库

五、备份和还原MySQL数据库在数据库的管理中，备份和还原是必须做认真做的事情，如果疏忽或者做粗糙了，那么一旦数据库故障后果不堪设想，所以Navicat同样也有备份和还原的功能，相比较创建功能，其备份功能则非常的简单。1、备份数据库在主视图窗口中选择【备份】功能按钮后，在下面的导航栏中点击【新建备份】弹出其提示窗口，在提示窗口中点击【开始】按钮执行备份命令。

2017-03-06 09:41:00 332

转载 nutch 抓取流程解析

本次笔记主要对抓取的过程进行说明。首先这里简要列下抓取命令常用参数：参数：-dir dir 指定用于存放抓取文件的目录名称。-threads threads 决定将会在获取是并行的线程数。-depth depth 表明从根网页开始那应该被抓取的链接深度。-topN N 决定在每一深度将会被取回的网页的最大数目。我们之前的抓取命令中：nohup ./bin/nutch

2017-03-03 18:20:08 984

转载 Nutch抓取流程

nutch抓取流程注入起始url(inject)、生成爬取列表(generate)、爬取(fetch)、解析网页内容(parse)、更新url数据库(updatedb)1:注入起始url(inject)org.apache.nutch.crawl.Injector注入待抓取URL,因为Nutch的抓取程序要抓取网页，肯定需要有一个或者多个入口url。nutch会按照广度优先策略

2017-03-03 17:52:01 655

转载 Nutch 快速入门(Nutch 2.2.1)

Nutch 2.x 与 Nutch 1.x 相比，剥离出了存储层，放到了gora中，可以使用多种数据库，例如Hbase, Cassandra, MySQL来存储数据了。Nutch 1.7 则是把数据直接存储在HDFS上。1. 安装并运行HBase为了简单起见，使用Standalone模式，参考 HBase Quick start1.1 下载，解压wget htt

2017-03-03 13:36:09 797

转载 solr unknown field报错

Solr 中添加fieldType出错在schema.xml中，我添加了一个然后我创建了一个field，使用该fieldType。然后我写了一个my.xml，内容： lawrenst lawrenst(256 MB) wang wu 执行 ja

2017-03-03 12:42:12 6358 1

转载 windows下MySQL 插入数据时，中文乱码问题的解决

当向 MySQL 数据库插入一条带有中文的数据形如 insert into employee values(null,'张三','female','1995-10-08','2015-11-12','Sales',2000,'是个好员工！'); 出现乱码时，可以使用语句 show variables like 'character%'; 来查看当前数据库的相关编码集。从上图中可以看到

2017-03-02 15:42:21 3522 1

转载 Ubuntu下MySQL中文乱码的解决

1.以root登陆，在终端输入命令 sudo gedit /etc/mysql/my.cnf在打开的文件中找到［client]在下面加入 default-character-set=utf8 找到 [mysqld_safe]在下面加入 default-character-set=utf8 找到[mysqld]在下面加入 default-chara

2017-03-02 12:24:21 621

转载 Nutch 2.3.1+ Hbase + Hadoop + Solr 单机指南（一）

这是本熊转业的第一篇，本来从事绘画的工作的本熊为什么来搞搜索引擎呢。这要说起前些日子小Y的委托，靠脸吃饭能饿死自己几辈子的本熊。出于这是单身熊的寂寞，哪能错过这个刷刷小Y的好感度的机会，于是跳了这个大坑里。注：本熊搜索引擎新手一枚，本着连初学者都能看懂的想法写的本文，对专业的描述可能还不充分，还请多多指教纯初学者说明模式本章节主讲实现本地模式最低需要哪些软件版本问

2017-03-02 10:59:33 763

转载 Ubuntu下Mongodb的配置和使用

转自https://my.oschina.net/kakoi/blog/515603今天实验了mongodb在unbuntu下的使用//首先安装mongodbsudo apt-get install mongodb-serversudo apt-get install mongodb-client搭建mongodb的简单服务新建一个文件夹mongod_simple

2017-03-01 19:27:08 1093

转载在ubuntu上安装mongodb

1.安装 MongoDB。1.为软件包管理系统导入公钥。Ubuntu 软件包管理工具为了保证软件包的一致性和可靠性需要用 GPG 密钥检验软件包。使用下列命令导入 MongoDB 的 GPG 密钥（ MongoDB public GPG Key http://docs.mongodb.org/10gen-gpg-key.asc）_：sudo apt-key adv --k

2017-03-01 19:02:34 290

gywtzh0889的专栏