- 博客(27)
- 资源 (1)
- 收藏
- 关注
原创 Python 爬虫框架 scrapy
xpath教程 : w3c通过路径来。。。scrapy教程:http://scrapy-chs.readthedocs.org/zh_CN/latest/
2017-07-31 10:42:49 290
转载 以终为始. 反馈是学习的唯一途径. 输入只是娱乐, 输出才是学习.
我该学什么? 这是一个错误的问题这个问题可以有很多出发点. 今天讨论基于的假设是对工作方向的迷惘, 即不知道自己下一步努力的重点是什么, 但又不想时光虚度, 总觉得该学点什么, 又不知从何学起.想学习是好的, 但考虑下面这种场景. 你走进领导的办公室说: “我要加薪, 因为我参加了两个培训, 看了三本书”. 你觉得领导会答应吗?再考虑第二种场景. 你走进领导的办公室说: “
2017-07-31 10:39:51 584
原创 基于Raspberry Pi Raspbian 的 Hadoop 安装
一、安装Raspbian准备:1·Rsapberry Pi2·8G内存卡一张(格式化)3·网络(有线) 开始安装:这里使用的是官方推荐的NOOBS,将下载的NOOBS解压后,将NOOBS文件夹中的全部文件拷贝到已经格式化的内存卡中,然后将内存卡插入树莓派中,上电自动开机,出现系统安装选择界面,这里选择的是比较成熟的Raspbian操作系统(本地文件安装),也
2017-07-31 10:36:14 400
原创 REST: resource representation state transfer
REST: resource representation state transfer下面两篇文章讲的不错,有时间再总结下自己的心得基于REST架构的Web Service设计RESTful架构: 理解RESTful架构
2017-07-31 10:26:25 430
原创 Sublime+scala
Sublime工具->编译系统->新的编译系统里面内容:{ "cmd": ["scala", "$file"], "selector": ["source.scala"], "shell": "true"}
2017-07-31 10:18:26 297
原创 centos6.5下yum重装MySQL
今天终于把虚拟机弄得连上网络了,寻思跑跑代码试试,发现MySQL以前弄的时候删乱了,于是乎重装MySQL一 ·防止之前装的MySQL添乱,先删掉之前的 (root权限) yum remove mysql mysql-server mysql-libs; find / -name mysql 找到的文件用 rm -rf 'file path'
2017-07-31 10:16:08 365
原创 Java Serialize Java序列化
Java序列化是指: 将那些实现了serializable接口的对象转换成一个字节序列// TODO:总结
2017-07-31 10:05:43 388
原创 ubuntu操作系统下spark源码走读环境搭建
准备:1.ubuntu操作系统2.百度一下 IDEA, 到官网下载IDEA安装包 下载完成解压到指定目录下如:tar -zxvf xxx,xxx -C /opt/idea运行/optt/idea/xxx/bin/idea.sh如: sh idea.sh这个过程中可以选择安装 scala sbt 开始:3.sbt update gen-idea4.用idea open 该目
2017-07-30 14:29:33 264
原创 用python训练机器学习
//样本数据编号,色泽,根蒂,敲声,纹理,脐部,触感,密度,含糖率,好瓜 1,青绿,蜷缩,浊响,清晰,凹陷,硬滑,0.697,0.46,是 2,乌黑,蜷缩,沉闷,清晰,凹陷,硬滑,0.774,0.376,是 3,乌黑,蜷缩,浊响,清晰,凹陷,硬滑,0.634,0.264,是 4,青绿,蜷缩,沉闷,清晰,凹陷,硬滑,0.608,0.318,是 5,浅白,蜷缩,浊响,清晰,凹陷,
2017-07-30 14:29:30 382
原创 爬虫总结
一开始接触用python 写爬虫用的是bs4 request urllib2 这些库,简单爬取网页简直不要太简单类似这种:# -*- coding: utf-8 -*-#---------------------------------------# 程序:百度贴吧爬虫# 版本:0.1# 作者:why# 日期:2013-05-14# 语言:Python 2.7
2017-07-30 14:29:25 258
原创 爬虫框架scrapy安装
花了将近一下午才装好#scrapy#,我也真是毙了狗了------------------------------------------------上为背景,其中的艰难困苦自不必题。参考指导的文档:1· 安装指南 (不太详细)2·Python爬虫进阶三之Scrapy框架安装配置(较详细) 问题:1·缺少python依赖的c++库,
2017-07-30 14:29:22 261
原创 linux shell awk sed
这篇博文总结的够好了--awkawk是強大的文本分析工具,相对于grep的查找,sed的编辑,awk在对数据分析生成报告时,显得尤为重要简单来说awk 就是把文件逐行读入,以空格为默认分隔符,切开的部分再进行各种分析处理。 ps:-v是选项不是参数,用于定义变量,variable变量,该选项需要一个参数,如: -v var=value。 sed 看这篇 -- se
2017-07-30 14:29:08 279
原创 linux shell dirname basename
[root@hadoopname ~]# clear[root@hadoopname ~]# lltotal 136-rw-------. 1 root root 2696 Jun 24 04:41 anaconda-ks.cfgdrwxr-xr-x. 2 root root 4096 Jun 24 06:13 Desktopdrwxr-xr-x. 2 root root 4096
2017-07-30 14:29:05 322
原创 linux 特殊变量 亲测
#!/bin/bash# $$ 该shell本身的PIDprintf "The complete list is %s\n" "$$"# $! shell 最后运行的后台的Process 的PIDprintf "The complete list is %s\n" "$!"# $? 最后运行的命令的结束代码printf "The complete list is %s\n" "$?"
2017-07-30 14:29:03 262
原创 spark集群环境主机日志文件太多,超出了ext3文件系统一级子目录的个数默认为31998(个),准确地说是32000个,导致集群不正常
2016-12-02问题:spark集群环境主机日志文件太多,超出了ext3文件系统一级子目录的个数默认为31998(个),准确地说是32000个,导致集群不正常解决方案:手动情况日志文件,并修改配置文件:/home/mr/spark/conf/spark-defaults.conf使spark.worker.cleanup.enabled=true,spark.worker.cle
2017-07-30 14:28:55 308
原创 数据库分区的概念
from: http://www.iteye.com/problems/67953此文从以下几个方面来整理关于分区表的概念及操作: 1.表空间及分区表的概念 2.表分区的具体作用 3.表分区的优缺点 4.表分区的几种类型及操作方法 5.对表分区的维护性操作. (1.) 表空间及分区表的概念 表空间: 是一个或多个
2017-07-30 14:28:40 712
原创 Intellij IDEA 快捷键整理
【常规】Ctrl+Shift + Enter,语句完成“!”,否定完成,输入表达式时按 “!”键Ctrl+E,最近的文件Ctrl+Shift+E,最近更改的文件Shift+Click,可以关闭文件Ctrl+[ OR ],可以跑到大括号的开头与结尾Ctrl+F12,可以显示当前文件的结构Ctrl+F7,可以查询当前元素在当前文件中的引用,然后按 F3 可以选择
2017-07-30 14:28:35 183
原创 笔记--Linux
shellchkconfig 命令chkconfig命令主要用来更新(启动或停止)和查询系统服务的运行级信息。谨记chkconfig不是立即自动禁止或激活一个服务,它只是简单的改变了符号连接。Connecting to 10.9.233.72:22...Connection established.To escape to local shell, press 'Ctrl+
2017-07-30 14:28:33 246
原创 笔记--MySQL相关操作
一 登录数据库 1 用户无密码: mysql -uroot -p mysql-> 2 用户有密码: MySQL -root -p[passwd] mysql->二 创建数据库: 查询:mysql> show databases;+--------------------+| Database |+---
2017-07-30 14:28:23 479
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人