自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(33)
  • 收藏
  • 关注

原创 OLAP和OLTP的SQL性能优化大体思路

OLAP OLTP

2022-08-09 11:19:01 225 1

原创 [spark-sql]No TypeTag available for String

自定义UDF函数时,出错。spark.udf.register("addName",(x:java.lang.String)=>"Name:"+x)此时的string时蓝色的,表示是别名。通过查看源码:type String = java.lang.String修改为:spark.udf.register("addName",(x:java.lang.String)=>"Name:"+x)总结:不知道此时的类别别名为什么会 错误?可能是我的scala版本不

2020-08-22 01:06:59 681

原创 弹出界面 eth0: 错误:激活连接失败:Device not managed by NetworkManager

之前虚拟机开发环境一直OK,突然一天使用,发现xshell连接不上,网络ping不通。网络正常网卡正常NAT配置正常最好检测windows服务,VM-DHCP和NAT关闭了。。。。。。。。近期windows更新,可能导致服务关闭。启动服务...

2020-08-21 22:43:25 745 1

原创 [Hive笔记总结][ERROR] Terminal initialization failed; falling back to unsupported

启动hive的过程中。注:次时也不能启动hive服务,因为Hadoop的版本是2.6.0,hive的版本是1.2.2,HIVE_HOME/lib目录下的jline-2.12.jar比HADOOP_HOME/share/hadoop/yarn/lib下的jline-0.9.94.jar版本高,版本不一致导致。所以将HIVE_HOME/lib目录下的jline-2.12.jar复制到HADOOP_HOME/share/hadoop/yarn/lib下,并将jline-0.9.94.jar删除,然后重启had

2020-08-02 23:09:37 352 1

原创 多空格&多制表符文本之cut域分割终极方案

问题ifconfig ens33ens33: flags=4163<UP,BROADCAST,RUNNING,MULTICAST> mtu 1500 inet 192.168.216.133 netmask 255.255.255.0 broadcast 192.168.216.255 inet6 fe80::250:56ff:fe39:8b4 prefixlen 64 scopeid 0x20<link> eth..

2020-07-29 23:33:15 387

原创 java.lang.Exception: java.lang.ClassCastException: org.apache.hadoop.io.BytesWritable cannot be cast

错误异常java.lang.Exception: java.lang.ClassCastException: org.apache.hadoop.io.BytesWritable cannot be cast to org.apache.hadoop.io.ByteWritablejava.lang.Exception: java.lang.ClassCastException: org.apache.hadoop.io.BytesWritable cannot be cast to org.apach

2020-07-28 12:32:47 3323

原创 word自定义页码

链接:https://jingyan.baidu.com/article/3065b3b6efb2d7becff8a4c1.html

2019-12-26 23:02:17 148

原创 解决pip install慢的方法

豆瓣http://pypi.douban.com/simple/清华:https://pypi.tuna.tsinghua.edu.cn/simple临时使用:pip install -i https://pypi.tuna.tsinghua.edu.cn/simple gevent永久修改:linux系统--修改 ~/.pip/pip.conf (没有就创建一个)[gl...

2019-12-21 17:37:21 95

原创 Hacker News API

import requestsfrom operator import itemgetter#执行API调用并存储url="https://hacker-news.firebaseio.com/v0/topstories.json"headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (...

2019-12-21 17:01:56 822

原创 Python中operator.itemgetter类的理解

链接:https://blog.csdn.net/weixin_43868107/article/details/102594201

2019-12-21 16:34:26 108

原创 python——operator详解

链接:https://blog.csdn.net/qq_42233538/article/details/90349753

2019-12-21 16:28:53 172

原创 使用Pygal可视化仓库+Github_API

问题:Github当前托管了多少个python项目,还有有关最受欢迎的Python仓库信息。import requestsimport pygalfrom pygal.style import LightColorizedStyle as LCS,LightenStyle as LS#执行API调用并存储url="https://api.github.com/search/reposit...

2019-12-20 13:04:04 194

原创 通过pydoc查看python库/模块帮助文档

#官网文档http://www.pygal.org/en/stable/documentation/index.html查看python官方文档python -m pydoc -p 8899

2019-12-19 22:07:42 215

原创 监视API的速率限制

大多数API都存在速率限制。即你在特定的时间内可执行的请求数存在限制。URL:https://api.github.com/rate_limithttps://api.github.com/rate_limit{ "resources": { "core": { "limit": 60, "remaining": 60, "reset": ...

2019-12-19 21:47:54 562

原创 requests下的text和content的区别。

response.text 解码过的数据。类型:str解码类型:根据HTTP头部响应的编码做出有根据的推测,推测的文本编码。改变编码的方式:response.encoding=”gbk”用途:response.text返回的是Unicode型数据;一般用来获取文本response.text;response.content类型:bytes解码类型:没有指定修改编码的方式:r...

2019-12-19 20:24:03 164

原创 MyEclipse+MapReduce小作业

数据:computer,huangxiaoming,85,86,41,75,93,42,85computer,xuzheng,54,52,86,91,42computer,huangbo,85,42,96,38english,zhaobenshan,54,52,86,91,42,85,75english,liuyifei,85,41,75,21,85,96,14algorithm,li...

2019-12-18 22:07:12 154

原创 MyEclipse+MapReduce小作业

数据:computer,huangxiaoming,85,86,41,75,93,42,85computer,xuzheng,54,52,86,91,42computer,huangbo,85,42,96,38english,zhaobenshan,54,52,86,91,42,85,75english,liuyifei,85,41,75,21,85,96,14algorithm,li...

2019-12-18 22:04:11 110

原创 MyEclipse+MapReduce+物品协同过滤

数据集:1 6 5 8874319731 10 3 8756931181 12 5 8785429601 14 5 8749657061 17 3 8750731981 20 4 8874318831 23 4 8750728951 24 3 875071713用户 电影 评分 时间戳第一个package org.apache.hadoop.example;import j...

2019-12-18 21:13:35 208 1

原创 ava.lang.Exception: java.lang.RuntimeException: java.lang.NoSuchMethodException: org.apache.hadoop.e

问题:java.lang.Exception:java.lang.RuntimeException:java.lang.NoSuchMethodException: org.apache.hadoop.example.MapReduce1$Mapper1.()产生于:执行MapReduce任务解决方案:Map和Reduce类须设置为Static权限修饰!...

2019-12-18 20:53:54 521

原创 MovieLens ml-100k

链接:https://grouplens.org/datasets/movielens/

2019-12-16 08:49:32 1012

原创 理解Mapreduce模型下基于物品协同过滤算法

链接:https://blog.csdn.net/qq_32563713/article/details/76870613

2019-12-15 20:53:59 161

原创 基于物品(Item)的协同过滤算法

链接:https://blog.csdn.net/qq_41544550/article/details/96614442

2019-12-15 19:26:25 146

原创 MyEclipse+hadoop+去重

package org.apache.hadoop.examples;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.Text;import org.apache.hadoo...

2019-12-14 21:22:08 110 1

原创 MyEclipse+hadoop+气象数据清洗

package org.apache.hadoop.examples;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.LongWritable;import org.apac...

2019-12-14 21:21:33 274

原创 MyEclipse+hadoop+排序

package org.apache.hadoop.examples;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import org.apach...

2019-12-14 21:19:28 150

原创 MyEclipse+hadoop+WordCount

package org.apache.hadoop.examples;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.LongWritable;import org.apa...

2019-12-14 21:18:35 86

原创 提升性能、python多线程、多进程机制

简介:线程和进程:进程:具有独立功能的程序在数据集合上的一次动态执行过程系统进行资源分配和调度的一个独立单位任务调度的最小单位线程:线程是CPU调度和分派的基本单位能独立运行基本上不拥有系统资源, 可与同一进程的其他线程共享进程的资源**线程与进程的联系:**下面线程被称为轻量级进程,和进程一样拥有独立的执行控制一个进程包含多个线程,线程是进程的一个实体一个线程可以创建和...

2019-12-10 22:14:29 143

原创 Nutch案例1

import requestsfrom bs4 import BeautifulSoupimport osimport csvimport timeurls=[]urlls=[]datas=[]i=0def Download(name,url,dirname): dir=dirname+"//" path=os.path.join(dir,name) re...

2019-12-10 15:23:46 114

原创 MyEclipse打包+hadoop运行

2019-12-10 15:21:02 78

转载 open()函数

open(file, mode=‘r’, buffering=-1, encoding=None, errors=None, newline=None, closefd=True, opener=None):在使用该函数的时候,除了file参数必填外,其他参数可以选用。在本代码中对其他参数使用了默认值。在使用open()的时候,如果文件不存在,那么将会返回IOError。参数说明:file:...

2019-12-07 20:48:10 345 1

转载 BeautifulSoup模块,html.parser,解析数据,提取数据,find()与find_all(),Tag对象

l链接

2019-12-07 17:53:28 756

原创 如何查看网页的编码格式

2019-12-07 17:14:59 887

原创 Selenium模拟下拉浏览器操作,使用execute_script()函数,执行脚本。

滚动到底部:window.scrollTo(0,document.body.scrollHeight)滚动到顶部:window.scrollTo(0,0)scrollTo():window的方法,可以滚到页面的任何位置window:js的window对象execute_script方法可以调用原生JavaScript的api driver.execute_script(‘window.s...

2019-12-05 17:35:17 5748

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除