2017年07月_Alan_happy

原创 Python 爬虫框架 scrapy

xpath教程： w3c通过路径来。。。scrapy教程：http://scrapy-chs.readthedocs.org/zh_CN/latest/

2017-07-31 10:42:49 290

转载以终为始. 反馈是学习的唯一途径. 输入只是娱乐, 输出才是学习.

我该学什么? 这是一个错误的问题这个问题可以有很多出发点. 今天讨论基于的假设是对工作方向的迷惘, 即不知道自己下一步努力的重点是什么, 但又不想时光虚度, 总觉得该学点什么, 又不知从何学起.想学习是好的, 但考虑下面这种场景. 你走进领导的办公室说: “我要加薪, 因为我参加了两个培训, 看了三本书”. 你觉得领导会答应吗?再考虑第二种场景. 你走进领导的办公室说: “

2017-07-31 10:39:51 584

原创基于Raspberry Pi Raspbian 的 Hadoop 安装

一、安装Raspbian准备：1·Rsapberry Pi2·8G内存卡一张（格式化）3·网络（有线）开始安装：这里使用的是官方推荐的NOOBS,将下载的NOOBS解压后，将NOOBS文件夹中的全部文件拷贝到已经格式化的内存卡中，然后将内存卡插入树莓派中，上电自动开机，出现系统安装选择界面，这里选择的是比较成熟的Raspbian操作系统（本地文件安装），也

2017-07-31 10:36:14 400

原创 REST: resource representation state transfer

REST: resource representation state transfer下面两篇文章讲的不错，有时间再总结下自己的心得基于REST架构的Web Service设计RESTful架构: 理解RESTful架构

2017-07-31 10:26:25 430

原创基于REST架构的Web Service设计

基于REST架构的Web Service设计

2017-07-31 10:23:01 238

原创 Sublime+scala

Sublime工具->编译系统->新的编译系统里面内容：{ "cmd": ["scala", "$file"], "selector": ["source.scala"], "shell": "true"}

2017-07-31 10:18:26 297

原创 centos6.5下yum重装MySQL

今天终于把虚拟机弄得连上网络了，寻思跑跑代码试试，发现MySQL以前弄的时候删乱了，于是乎重装MySQL一 ·防止之前装的MySQL添乱，先删掉之前的　（ｒｏｏｔ权限） yum remove mysql mysql-server mysql-libs;　 find / -name mysql 找到的文件用 rm -rf 'file path'

2017-07-31 10:16:08 365

原创 Actor

//TODO:总结

2017-07-31 10:06:42 268

原创 Java Serialize Java序列化

Java序列化是指：将那些实现了serializable接口的对象转换成一个字节序列// TODO:总结

2017-07-31 10:05:43 388

原创 ubuntu操作系统下spark源码走读环境搭建

准备：1.ubuntu操作系统2.百度一下 IDEA，到官网下载IDEA安装包下载完成解压到指定目录下如：tar -zxvf xxx,xxx -C /opt/idea运行/optt/idea/xxx/bin/idea.sh如： sh idea.sh这个过程中可以选择安装 scala sbt 开始：3.sbt update gen-idea4.用idea open 该目

2017-07-30 14:29:33 264

原创用python训练机器学习

//样本数据编号,色泽,根蒂,敲声,纹理,脐部,触感,密度,含糖率,好瓜 1,青绿,蜷缩,浊响,清晰,凹陷,硬滑,0.697,0.46,是 2,乌黑,蜷缩,沉闷,清晰,凹陷,硬滑,0.774,0.376,是 3,乌黑,蜷缩,浊响,清晰,凹陷,硬滑,0.634,0.264,是 4,青绿,蜷缩,沉闷,清晰,凹陷,硬滑,0.608,0.318,是 5,浅白,蜷缩,浊响,清晰,凹陷,

2017-07-30 14:29:30 382

原创爬虫总结

一开始接触用python 写爬虫用的是bs4 request urllib2 这些库，简单爬取网页简直不要太简单类似这种：# -*- coding: utf-8 -*-#---------------------------------------# 程序：百度贴吧爬虫# 版本：0.1# 作者：why# 日期：2013-05-14# 语言：Python 2.7

2017-07-30 14:29:25 258

原创爬虫框架scrapy安装

花了将近一下午才装好#scrapy#,我也真是毙了狗了------------------------------------------------上为背景，其中的艰难困苦自不必题。参考指导的文档：1· 安装指南（不太详细）2·Python爬虫进阶三之Scrapy框架安装配置（较详细）问题：1·缺少python依赖的c++库，

2017-07-30 14:29:22 261

原创 Java中设置classpath、path、JAVA_HOME的作用

Java中设置classpath、path、JAVA_HOME的作用

2017-07-30 14:29:18 259

原创 JAVA 并发

java synchronized详解

2017-07-30 14:29:13 189

原创 linux shell awk sed

这篇博文总结的够好了--awkawk是強大的文本分析工具，相对于grep的查找，sed的编辑，awk在对数据分析生成报告时，显得尤为重要简单来说awk 就是把文件逐行读入，以空格为默认分隔符，切开的部分再进行各种分析处理。 ps:-v是选项不是参数，用于定义变量，variable变量，该选项需要一个参数，如: -v var=value。 sed 看这篇 -- se

2017-07-30 14:29:08 279

原创 linux shell dirname basename

[root@hadoopname ~]# clear[root@hadoopname ~]# lltotal 136-rw-------. 1 root root 2696 Jun 24 04:41 anaconda-ks.cfgdrwxr-xr-x. 2 root root 4096 Jun 24 06:13 Desktopdrwxr-xr-x. 2 root root 4096

2017-07-30 14:29:05 322

原创 linux 特殊变量亲测

#!/bin/bash# $$ 该shell本身的PIDprintf "The complete list is %s\n" "$$"# $! shell 最后运行的后台的Process 的PIDprintf "The complete list is %s\n" "$!"# $? 最后运行的命令的结束代码printf "The complete list is %s\n" "$?"

2017-07-30 14:29:03 262

原创 kafka

//todo:总结kafka入门博客：kafka入门：简介、使用场景、设计原理、主要配置及集群搭建（转）

2017-07-30 14:28:58 277

原创 spark集群环境主机日志文件太多，超出了ext3文件系统一级子目录的个数默认为31998(个)，准确地说是32000个，导致集群不正常

2016-12-02问题：spark集群环境主机日志文件太多，超出了ext3文件系统一级子目录的个数默认为31998(个)，准确地说是32000个，导致集群不正常解决方案：手动情况日志文件，并修改配置文件：/home/mr/spark/conf/spark-defaults.conf使spark.worker.cleanup.enabled=true,spark.worker.cle

2017-07-30 14:28:55 308

原创 ssh 免密

搞了将近两天，最后发现原因是我给私钥的权限太大，造成验证不通过（我给的777，应该是700）

2017-07-30 14:28:50 234

原创数据库分区的概念

from: http://www.iteye.com/problems/67953此文从以下几个方面来整理关于分区表的概念及操作: 1.表空间及分区表的概念 2.表分区的具体作用 3.表分区的优缺点 4.表分区的几种类型及操作方法 5.对表分区的维护性操作. (1.) 表空间及分区表的概念表空间：　　是一个或多个

2017-07-30 14:28:40 712

原创 Intellij IDEA 快捷键整理

【常规】Ctrl+Shift + Enter，语句完成“！”，否定完成，输入表达式时按 “！”键Ctrl+E，最近的文件Ctrl+Shift+E，最近更改的文件Shift+Click，可以关闭文件Ctrl+[ OR ]，可以跑到大括号的开头与结尾Ctrl+F12，可以显示当前文件的结构Ctrl+F7，可以查询当前元素在当前文件中的引用，然后按 F3 可以选择

2017-07-30 14:28:35 183

原创笔记--Linux

shellchkconfig 命令chkconfig命令主要用来更新（启动或停止）和查询系统服务的运行级信息。谨记chkconfig不是立即自动禁止或激活一个服务，它只是简单的改变了符号连接。Connecting to 10.9.233.72:22...Connection established.To escape to local shell, press 'Ctrl+

2017-07-30 14:28:33 246

原创 netstat

linux:netstat -an | grep 8080windows: netstat -an

2017-07-30 14:28:28 237

原创笔记--MySQL相关操作

一登录数据库 1 用户无密码：　　mysql -uroot -p　　mysql->　　2 用户有密码：　　MySQL -root -p[passwd]　　mysql->二创建数据库：　　查询：mysql> show databases;+--------------------+| Database |+---

2017-07-30 14:28:23 479

原创 log

http://www.infoq.com/cn/articles/why-and-how-log

2017-07-28 10:28:14 213

饮马天涯