自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(63)
  • 收藏
  • 关注

原创 python16

#ip代理池构建的第一种方式import randomimport urllib.requestimport re#用户代理池用列表存储,这里构建3个用户代理(自己随便构建个数)ippools = [“”, #这里输入不同的 User-Agent 的值“”, #这里输入不同的 User-Agent 的值“”, #这里输入不同的 User-Agent 的值]#接下来构...

2019-10-15 19:46:24 173

原创 python15

import randomimport urllib.requestimport re#爬取首页下每页的内容 ------# compile(pat,re.S) 匹配多行数据headers = (“User-Agent”,“Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko)...

2019-10-15 19:45:49 148

原创 python14

import reimport urllib.requestimport urllib.parse#python新闻爬虫‘’’需求:将腾讯新闻首页所有新闻都爬到本地思路:1先爬首页2.通过正则获取所有新闻链接3.然后依次爬各新闻链接4.寻找有没有frame5.若有,抓取frame下对应网页内容6.若没有,直接抓取当前页面7.最后保存到本地‘’’‘’’. 除 换行符...

2019-10-15 19:44:57 163

原创 python13

import reimport urllib.requestimport urllib.parse#异常处理‘’’常见状态码及含义URLError与HTTPError爬虫如果不进行异常处理,下次运行时,又会重头开始‘’’‘’’状态码301 重定向到新的URL,永久性302 重定向到临时的URL,非永久性304 请求的资源未更新400 非法请求401 请求未经授权40...

2019-10-15 19:44:16 166

原创 python12

import reimport urllib.request#urllib.request.urlcleanup()超时设置for i in range(0,5):file=urllib.request.urlopen(“https://read.douban.com/provider/all”,timeout=1)try:print(len(file.read().decode(“...

2019-10-07 21:55:48 191

原创 python11

import reimport urllib.request‘’’urlretrieve(网址,本地文件存储地址) #直接下载网页到本地urlcleanup() #清除爬虫缓存info() #当前爬取 相应的情况getcode() ...

2019-10-07 15:21:53 104

原创 python10

import reimport urllib.request‘’’如何匹配.com或.cn网址,以及如何匹配电话号码[a-zA-Z]+ 协议至少出现一次[^\s]* 域名不可能出现空白符,不知道出现多少次[.com|.cn] 模式选择,要么出现 .com , 要么出现 .cn‘’’#匹配.com或.cn网址string = “百度首页”pat = ...

2019-10-07 14:54:44 172

原创 python9

import re#模式修正符‘’’I 匹配时忽略大小写M 多行匹配L 本地化识别匹配U unicodeS 让.匹配包括换行‘’’string = “Python”pat = “pyt”result = re.search(pat,string)print(result)‘’’None‘’’string = “Python”pat = “pyt”result =...

2019-10-07 13:22:53 138

原创 python8

import re#元字符‘’’. 除 换行符 以外的 任意字符^ 不在原子表中,代表匹配开始位置$ 匹配结束位置前面的原子 重复出现 0次、1次、多次? 前面的原子 重复出现 0次、1次前面的原子 重复出现 1次、多次{n} 前面这个原子恰好出现n次{n,} 前面这个原子至少出现n次{n,m} 前面这个原子至少出现n次,最多出现m次| 模式选择符或...

2019-10-06 21:58:34 111

原创 python7

import re #导入正则string = “taoyunjiaoyu”pat = “yun”result = re.search(pat,string)print(result)‘’’<re.Match object; span=(3, 6), match=‘yun’>match 就是正则提取的结果‘’’‘’’1.普通字符作为原子2.通用字符作为原子3...

2019-10-06 21:48:15 89

原创 python6

‘’’继承:把某一个或多个类(基类)的特征拿过来重载:在子类(派生类)里面对继承过来的特征重新定义父类:基类子类:派生类‘’’#单继承,多继承#某一个家庭:父亲、母亲、儿子、女儿、父亲可以说话、母亲可以写字,儿子继承父亲#女儿同时继承了父母,并且有新能力听东西,小儿子继承父亲,但优化了父亲的说话能力#父亲类class father(): #基类def speak(se...

2019-10-06 19:57:32 101

原创 python5

#面向对象‘’’创建一个类class 类名:类里面内容实例化一个对象a = cl()pass 不进行任何操作,只是占了一个位置‘’’class cl:passa = cl() # a就是对象,cl()就是方法‘’’构造函数 == 构造方法类在实例化的时候自动首先触发的方法(构造方法)构造函数的实际意义:初始化init(self,参数) init...

2019-10-06 19:35:20 183

原创 python4

#异常处理‘’’异常处理格式try:程序except Exception as 异常名称(自己随意起):异常处理部分 #这里处理的时候程序不会崩溃,后面的程序可以继续执行‘’’for i in range(0,10):print(i)if(i == 4): # 制作一个异常print(i)print(jki) #变量未定义#print(i) ...

2019-10-06 18:36:53 109

原创 python3

#乘法口诀for i in range(1,10):for j in range(1,i+1):print(str(i)+""+str(j)+"="+str(ij),end=" “) # end=”" :不换行输出 // end=" " : 每一次执行后以空格分隔print() # print() :代表换行print()print()print()#逆向输...

2019-10-06 18:06:33 93

原创 爬取每个用户及评论和随机抽取一名幸运观众

import requestsimport jsonimport pprint # 打印会有结构,print打印没有结构import randomr = requests.get(‘https://api.bilibili.com/x/v2/reply?jsonp=jsonp&pn=1&type=1&oid=xxxx&sort=2&_=xxxx’)...

2019-10-05 23:47:48 844

原创 hbase优化

1.高可用,hbase支持对Hmaster的高可用配置,下面都是在主节点执行的关闭Hbase集群(没启动,就跳过这步)bin/stop-hbase.sh在conf目录下创建backup-masters文件touch conf/backup-masters在backup-masters文件中配置高可用Hmaster节点echo hadoop103 > conf/backup-mas...

2019-09-16 17:47:43 123

原创 hbase自定义mr-2

1.目标:实现将hdfs中的数据写入到hbase表中//数据样式1001 apple red1002 pear yellow1003 pineapple yellow1.创建fruit.tsv,导入数据,上传到hdfs / 下2.hbase 中 创建 fruit2 表3.把下面自定义 mr2打包 上传到集群中 // 例如: /opt 下4.运行命令:/opt/hadoop/bi...

2019-09-15 16:46:42 130

原创 hbase自定义mr-1

1.目标:将fruit表中的一部分数据,通过mr迁入到fruit1表中从hbase读数据,经过mr,最终写入hbase中//数据样式1001 apple red1002 pear yellow1003 pineapple yellow/opt/hadoop/bin/yarn jar /opt/hbase/lib/hbase-server-1.4.3.jar importtsv-Dim...

2019-09-15 16:46:11 159

原创 hbase搭建

1.创建hbase用户useradd hbasepasswd hbaseRetype new passwd2.添加java_home环境变量到hbase用户vi ~/.bashrcexport JAVA_HOME=/opt/jdk-12.0.2export PATH=$PATH:JAVA_HOME/bin3.添加hbase_home环境变量到hbase用户中vi ~/.bashr...

2019-09-14 17:06:22 719

原创 hbase中执行mr任务

1.查看hbase的mr任务的执行bin/hbase mapredcp2.环境永久生效,在/etc/profilevi /etc/profileexport HBASE_HOME=/opt/hbaseexport HADOOP_HOME=/opt/hadoop并在hadoop-env.sh中配置(for循环后面配)vi hadoop-env.shexport HADOOP_CLA...

2019-09-14 17:04:50 733

原创 python2

输入一个任意类型的数#import randomfrom random import randintimport mathinput01 = input(“please input a data:”)a = int(input01) # 转换成整型print(a)input01 = input(“please input a data:”)b = input01 # 任意类型...

2019-09-13 18:43:09 80

原创 python1

变量的使用x = 3print(id(x)) # 测试内存地址print(type(x))y = xprint(id(y)) # 按值存储 y 和x 统一空间a = “hello world”print(type(a))print(isinstance(x, int))‘’‘数字的大小 ,可表示尽可能大的数’’’z = 9999999999999999999999999...

2019-09-13 18:41:47 113

原创 zookeeper3.5.5配置

1.下载2.解压3.权限sudo chown -R 节点名:9000 /opt/zookeeper/4.修改配置文件cd /opt/zookeeper/confcp zoo_sample.cfg zoo.cfgvi zoo.cfg只改#example sakes下的一个文件路径就行了,data自己手动创建example sakes.dataDir=/opt/zookeeper/...

2019-09-13 18:29:49 622 2

原创 hbase API 增删改查

import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.Cell;import org.apache.hadoop.hbase.CellUtil;import org.apache.hadoop.hbase.HBaseConfiguration...

2019-09-12 19:54:42 166

原创 hbase7

1.删除表,列,列族时,严格按照时间戳来执行当 时间戳<删除时的时间戳 时,小于的时间戳的所有版本都被删除2.主键:rowkey访问hbase table中的行,只有三种方式1)通过单个rowkey访问2)通过rowkey的rang(正则)3)全表扫描rowkey可以是任意字符串,最大长度为64kb,rowkey保存为字节数组,存储时数据按照rowkey的字典顺序排序3.列族...

2019-09-11 15:40:27 92

原创 hbase6

1.进入hbasebin/hbase shell2.启动hbasebin/start-hbase.sh3.关闭hbasebin/stop-hbase.sh4.如果在关闭hbase时,出现…一直等待情况,直接jps,killkill -9 5578 //假设5578为hbase端口号5.进入zookeeper查看是否还有hbase进程bin/zkCli.shls /6....

2019-09-11 15:39:51 129

原创 hbase5

1.创建列族中有version的表create ‘user’ , {name=>‘info’ , versions=>10}2.测试version的作用put ‘user’ , ‘row1’ , ‘info:name’ , ‘x’put ‘user’ , ‘row1’ , ‘info:name’ , ‘x1’put ‘user’ , ‘row1’ , ‘info:name’ ...

2019-09-01 16:34:06 117

原创 hbase4

1.删除info列族,建表后alter ‘table’ , ‘delete’ => ‘info’2.增加info列族,建表后alter ‘table’ , ‘name’ => ‘info’3.添加数据put ‘user’ , ‘row1’ , ‘info:name’ , ‘san’put ‘user’ , ‘row2’ , ‘info:age’ , ‘20’put ‘us...

2019-09-01 16:33:30 103

原创 hbase3

1.获取用户对商品1001的行为scan ‘s_behavie’ , filter => “ValueFilter(=,‘binary:1001’)”row column+cell12_1 column=pc:v,timestamp=1234,value=100112_1 column=ph:o,timestamp=1235,value=1001//注意:ValueFilter会匹...

2019-08-31 17:26:57 211

原创 hbase2

1.创建表create ‘table_name’ ,{name=>‘pc’},{name=>‘ph’}该表名为:table_name,用来存储用户的行为数据,这个表有两个列族,列族pc用来存储用户pc端的用户行为数据,列族ph用来存储用户的手机端的用户的行为数据。2.查看所有表list会列出hbase数据库中所有已经创建的表3.查看建表describe ‘table_n...

2019-08-28 16:11:03 130

原创 hbase1

1.hbase集群增加节点假设新增节点ip为:192.168.1.10,slave21.修改/etc/hosts文件,在所有节点(除新加节点)上运行如下命令以追加新机器名与ip绑定到host文件然后将hosts文件复制到slave2echo ‘192.168.1.10’ slave2 >> /etc/hosts2.修改…/hadoop-2.6.5/etc/hadoop/sla...

2019-08-28 16:10:29 138

原创 sqoop

1.官网:http://sqoop.apache.org/2.sqoop,datax:同类产品3.版本:两个版本完全不兼容,sqoop1用的最多sqoop1:1.4xsqoop2:1.99x4.安装步骤(1)解压(2)配置环境变量export SQOOP_HOME=/xx/sqoop.xxsource /etc/profile(3)添加数据库驱动包cp mysql-conn...

2019-08-26 16:52:47 97

原创 hive视频日志转换格式

crontab -e //打开1 */1 * * * sh /opt/cp_movie_data.sh //每个小时第一分钟执行一次3 */1 * * * nohup sh /opt/up_movie_data.sh >> /opt/local/log.log 2>&1 & //一般...

2019-08-25 16:41:03 108

原创 hive随笔7

cd /optvi test.sh#!/bin/bashdatetime=(date′+source/etc/profilehive−e&quot;loaddatalocalinpath′/opt/datame.txt′intotableshujuku.tablenamepartition(dt=(date &#x27;+%Y%m%d%H&#x27;)sour...

2019-08-24 16:38:58 106

原创 hive随笔6

1.udf函数可以直接应用于select语句,对查询结构做格式化处理后,再输出内容2.编写udf函数的时候需要注意以下几点(1)自定义udf需要继承org.apache.hadoop.hive.ql.exec.UDF(2)需要evaluate函数3.步骤(1)把程序打包放到目标机器上去(2)进入hive客服端,添加jar包:add jar /usr/local/testdata/hiv...

2019-08-24 16:38:27 80

原创 hive随笔5

1.udf函数可以直接应用于select语句,对查询结构做格式化处理后,再输出内容2.编写udf函数的时候需要注意以下几点(1)自定义udf需要继承org.apache.hadoop.hive.ql.exec.UDF(2)需要evaluate函数3.步骤(1)把程序打包放到目标机器上去(2)进入hive客服端,添加jar包:add jar /usr/local/testdata/hiv...

2019-08-23 16:48:00 104

原创 hive随笔4

1.row_number() //窗口函数–一般用于分组中求TopN需求:每。。。。。前几名。。。。。//给每个分组数据打上行号作用:把每一组的每一行都打上数字,1,2,3…然后取自己要用的行语法:select * from (select name,data_time,row_number() over(partition by name order cost desc) a...

2019-08-23 16:47:10 116

原创 hive随笔3

1.hive函数使用if函数 if( , , )if(条件表达式,如果条件成立返回值,如果条件不成立返回值)select age,if(person_age=‘0’,null,person_age) from student;case when 函数 case when … endcase a when b then c [when d then e]* [else] en...

2019-08-22 16:30:21 199

原创 hive随笔2

1.查看建表语句show create table table_name;2.查看表的元信息desc table_name;desc extended table_name;desc formatted table_name;3.重命名表alter table table_name to rename to new_table;4.创建数据库cretae database dat...

2019-08-22 16:29:43 120

原创 hive随笔1

1.查看一个有很多内容的1.txt文件,可以先看一点内容head 1.txt2.hive基本语法-建表create [external] table table_name(a int,b string,c string)partitioned by(非必选,创建分区表 dt string)clustered by (userid) into 3000 buckets //非...

2019-08-21 16:18:24 110

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除