周少钦-CSDN博客

原创执行Mapredce程序时出现org.apache.hadoop.io.nativeio.NativeIO$Windows.access0(Ljava/lang/String；I)Z异常

执行Mapreduce程序时出现，Exception in thread "main" java.lang.UnsatisfiedLinkError: org.apache.hadoop.io.nativeio.NativeIO$Windows.access0(Ljava/lang/String;I)Z异常如下:在网上看到了很多中解决办法，大部分情况下在hadoop/bin目录和system32目录中放入hadoop.dll和winutil文件，配置好环境变量即可解决这个异常。但再我多次尝试后，发现并没

2022-02-27 19:36:17 1543

原创解决配置了主机映射，Java API 还是访问不了HBase的问题

今天写项目的时候忽然发现Java API连接不到HBase了。向HBase插入数据时程序一直处于卡死状态。一般出现这种问题都是因为主机映射没有配置或者防火墙没有关闭，然而我早早就配置号了映射和关闭了防火墙却还是出现了这样的问题。更换maven依赖后为题得以解决:后面在网上查阅资料后发现，原来使用官方自带的依赖包，可能会与项目中的其他依赖产生冲突...

2021-07-19 13:54:43 202

原创使用SparkSql从Mysql中导入导出数据

导入数据SparkSession的read属性中包含与一个DataFrameReader对象DataFrameReader中包含了读取个各种格式数据的方法其中的jdbc(uri: String, table: String, properties: Properties)方法可以从mysql中读取表的数据并封装为DataFrame对象//创建Properties对象，配置Mysql的密码和用户名val properties = new Properties()properties.se

2021-01-24 00:58:28 761

原创 python对验证码进行降噪后使用tesserocr识别

使用tesserocr库可以识别图片验证码，我们以一个简单的图片验证码为例，来演示这个流程因为验证码中噪点、干扰线以及颜色的干扰，我们不能直接使用tesserocr库来识别验证码，先要对验证码进行去噪操作将验证码转换为灰度图片#获取图片对象img = Image.open("demo.jpg")#转换为灰度图片imgGary = img.convert('L')#查看图片imgGray.show()将灰度图片二值化获取所有像素点，并将小于阈值threshold的，转换为黑色。大于阈

2020-12-17 10:40:30 810 1

原创使用requests库爬取天天基金网某基金从开始到现在的净值数据

爬取基金从开始到现在的净值数据打开天天基金网的基金数据随便点开一个基金，发现每天的净值数据都在这个单位净值走势图中按F12打开开发者工具，刷新后发现接口为http://fund.eastmoney.com/pingzhongdata/基金代码.js每日净值数据被保存在返回的js代码中x为当日时间戳，y为当日的净值下面贴上代码import jsonimport reimport timeimport requests#基金代码fundCode = "001076"#设置头部h

2020-12-11 16:18:37 1272 2

原创 scrapy头部修改详解

文章目录被Scrapy自动添加的头部配置settings.py文件中默认的头部在Request中设置头部在中间件中配置referer中间件优先级分析被Scrapy自动添加的头部在没有任何配置的情况下，scrapy会对请求默认加上一些头部信息Scrapy会通过配置文件中的USER_AGENT配置，自动为头部添加User-Agent，这条配置会被任何包含User-Agent的配置覆盖当请求经过下载器后，会被自动添加头部Accept-Encoding: gzip,deflate, 会被任意包含Acc

2020-12-03 16:01:29 2035 8

原创 Scrapy导出中文Json文件

使用命令行导出在命令行中启动爬虫时指定scrapy crawl spidername -o filename.json即可导出Json文件注意如果这个文件不存在则创建，存在则追加scrapy将每个item作为一个字典并保存在一个总的列表中，最后将这个列表转换成json字符串保存到指定文件中中文编码异常如果中文编码出现异常只需要在配置文件中增加FEED_EXPORT_ENCODING = 'utf-8'将导出文件编码修改成utf-8即可...

2020-12-03 12:43:19 214

原创使用pymysql操作mysql数据库

PYMYSQL文章目录PYMYSQL创建Connection对象获取游标对象创建数据表删除数据表向数据表中插入数据删除数据表中的数据修改数据表中的内容查询数据表中的内容创建Connection对象通过pymysql.connect(地址, 用户名, 密码, 数据库)方法来获取Mysql的Connection连接对对象当我们对数据表进行修改时需要调用这个对象的commit()方法进行提交当所有对mysql的操作完成后，需要调用close()方法来关闭连接对象获取游标对象调用mysql连接对象的c

2020-11-30 15:12:43 294

原创 python使用requests库爬取淘宝评论

python使用requests库爬取淘宝评论进入淘宝店铺，使用开发者工具抓包后点击累计评价，可以定位到评论的接口从抓的包中复制cookie分析接口后发现只需要四个参数即可在此接口请求到评论内容#头部需要带上ua和referer，不然请求不到参数header = { 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.424

2020-11-30 12:58:38 1216 1

原创 steam登录JS解密源码

steam登录JS解密源码使用python登录steam的时候发现密码被加密，无法正常模拟请求下面贴上解密源码，使用python的execjs库调用getEncryptPassword函数，传入密码、publickey_mod、publickey_exp即可获取加密后的代码function BigInteger(a,b,c) { if(a != null) if("number" == typeof a) this.fromNumber(a,b,c); else if(b == null

2020-11-18 13:50:56 739

原创 python使用requests库爬取拉勾网招聘信息

python使用requests库爬取拉勾网招聘信息按F12打开开发者工具抓包，可以定位到招聘信息的接口在请求中可以获取到接口的url和formdata，表单中pn为请求的页数，kd为关请求职位的关键字使用python构建post请求data = { 'first': 'true', 'pn': '1', 'kd': 'python'}headers = { 'referer': 'https://www.lagou.com/jobs/list_python/

2020-11-18 09:48:54 899 5

原创 JS逆向土豆网登录密码

JS逆向土豆网登录密码对土豆网进行登录操作时，网站会对密码进行加密使用ctrl + shift + f打开搜索栏，在搜索栏中搜索encrypt，定位到加密函数的入口断点后能查看到详细的加密逻辑复制所有关于加密的代码段粘贴到编辑器中，并吧function(t,e,n){...}中的内容提取出来，并运行运行后发现e对象未被定义，所以我们注释这一行代码最后我们实例化D，设置rsaModulus和rsaExponent后调用encrypt方法即可获取密码rsaModulus

2020-11-13 21:10:58 201

原创 python使用requests库爬取淘宝指定商品信息

python使用requests库爬取淘宝指定商品信息在搜索栏中输入商品通过F12开发者工具抓包我们知道了商品信息的API，同时发现了商品数据都以json字符串的形式存储在返回的html内解析url后发现q参数代表搜索的关键字p4ppushleft参数代表每页展示的商品个数s参数为44的倍数，可以通过翻倍这个参数完成翻页请求通过抓包复制cookie通过requests库向API发起请求import requestsheaders = { 'user-ag

2020-11-11 20:59:31 2328 1

原创 Hadoop中关于LZO压缩的编译和安装

LZO压缩的编译和安装因为Hadoop本身并不支持LZO，所以只能通过hadoop-lzo组件来适配Hadoop此片文章选用的版本是lzo-2.10.tar.gz下载连接编译环境的安装#以下大部分环境都是自带的，如果存在这条命令会更新这些环境yum -y install gcc-c++ lzo-devel glib-devel autoconf automake libtool编译设置临时变量export CFLAGS=-m64在解压目录下创建一个compil

2020-11-04 14:25:14 306

原创 Python爬虫Urllib库对于Cookie的处理

Urllib库对于Cookie的处理CookieJar对象创建cookie = cookieJar.CookieJar()cookieJar实例是一个可迭代对象，每一条 cookie属性被封装成一个类存储再cookieJar实例中，调用这个类的name和value属性，可以获取cookie的键和值for i in cookies: print(i.name + "\t" + i.value)LWPCookieJar简介此对像可以将cookie存入或读取在LW

2020-11-04 14:11:27 398

原创 SequenceFile新旧API读写操作

SequenceFile新旧API的读写操作Hadoop中的SequenceFile类为二进制键值对提供了一个持久化的数据结构适用场景适用于存储二进制文件适用于存储小文件适用于存储键值对形式的文件日志文件新版APIOption实例新版API中为SequenceFil的内部类Writer中添加了Option内部类，这个类封装了文件路径和键值对的数据类型//获取文件路径OptionSequenceFile.Writer.Option pathOption = Seq

2020-09-07 15:49:40 476 1

原创 HDFS读写流程详解

文章目录写流程读流程写流程大致流程客户端先向NameNode进行通信，确认文件路径以及父路径是否正确，并获取负责接受块的DataNode位置。然后客户端按照文件顺序逐个将block传递给一个DataNode，这个DataNode接收到文件后会负责向另一个DataNode复制副本，以此连续直到副本数到达要求详细流程DistributeFileSystem(FileSystem的子类)调用create()方法，DistributeFileSystem与NameNode创建一个PRC调用

2020-08-06 17:40:13 166

原创 RedHat下安装Mysql5.7

文章目录下载Mysql的glibc安装包安装Mysql下载Mysql的glibc安装包下载连接点这里安装Mysql将压缩包解压到/usr/local文件夹下tar -zxf mysql-5.7.30-linux-glibc2.12-x86_64.tar.gz -C /usr/local重命名文件夹mv mysql-5.7.30-linux-glibc2.12-x86_64.tar.gz/ mysql/创建mysql用户和用户组useradd -r -s /sbin/nologin my

2020-06-02 11:29:49 596 1

周少钦的博客