自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(35)
  • 资源 (3)
  • 收藏
  • 关注

原创 Centos6无法使用yum源的问题 /var/cache/yum/x86_64/6/base/mirrorlist

1、通过执行如下命令修改fastestmirror.conf的配置参数sed -i "s|enabled=1|enabled=0|g" /etc/yum/pluginconf.d/fastestmirror.conf2、备份文件mv /etc/yum.repos.d/CentOS-Base.repo /etc/yum.repos.d/CentOS-Base.repo.bak3、如果是香港服务器或者海外,替换为官方Vault源curl -o /etc/yum.repos.d/C..

2021-04-13 13:17:13 2868 20

原创 基于Redis数据库的IP代理池设计

使用Redis数据的zset-有序集合键作为IP代理管理分数更新的机制实例:(底部附:代理池全部代码实现)# -*- coding: utf-8 -*-import requestsfrom examples.t import get_proxiesfrom proxypool.setting import TEST_URLimport redisimport threadingredis = redis.Redis(host='192.168.', port='', password

2020-05-20 14:38:55 439

原创 爬虫反编译java源码,将获取到的apk包转换成jar文件

安装Java环境:https://www.java.com/zh_CN/download/cmd命令下进入反编译器文件当前目录执行:java -jar jadx-gui进入反编译界面:运行后弹出选择文件窗口:选择需要反编译的文件得到java源码至此反编译java结束接着就是查看源码逆向操作了...

2020-05-08 09:45:39 331

原创 京东商城百万数据抓取--苏宁易购,淘宝网,京东商城,百万级价格数据海量抓取

按照惯例先上成果:过了分割线就是源码了,一直复制运行一直爽# -*- coding: utf-8 -*-import requestsimport reimport timeimport datetimeimport csvimport urllib.parsedef request_jd(): list = ('电池', '碗', '花', '手机...

2020-05-07 18:18:27 366

原创 苏宁易购,淘宝网,京东商城,百万级价格数据海量抓取

先上成果再说话:看完成果直接上代码:还是那句话运行就完事了# -*- coding: utf-8 -*-import reimport requestsimport timeimport datetimeimport csvdef cn_url(): list = ('电池', '碗', '花', '手机', '后壳') for kw in list...

2020-05-07 17:45:07 285

原创 当当网,京东商城,一号店,苏宁易购百万数据抓取爬虫程序

话不多说上菜:复制代码运行数据到手# -*- coding: utf-8 -*-import reimport requestsimport timeimport datetimeimport csv#http://category.dangdang.com/pg2-cid4001049-lp166-hp168.html# star_url = 'http://catego...

2020-05-07 17:21:57 437

原创 简单的JS逆向爬虫

# -*- coding: UTF-8 -*-import requestsimport execjsurl = "https://fanyi.baidu.com/v2transapi"headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:66.0) Gecko/20100101 Fire...

2020-05-06 17:37:09 741

原创 1688,苏宁yg等网站爬虫定期发布,jiage--50-200

苏宁:

2020-04-21 13:59:20 173

原创 scala idea 错误:找不到或无法加载主类

首先检查配置是否有问题没问题在看:scala文件是否设置好:右键-Mark Directory as-绿色的sources

2022-05-22 11:26:54 1705

原创 flink_kafka consumer

import org.apache.flink.streaming.api.scala.DataStreamimport org.apache.flink.streaming.api.scala.StreamExecutionEnvironmentimport org.apache.flink.api.scala._import nn.MyKafkaUtilobject StartupApp { def main(args: Array[String]): Unit = { val e...

2022-03-16 16:47:00 2129

原创 sp————sql2.0

尚硅谷大数据技术之SparkSQL(作者:尚硅谷大数据研发部)版本:V2.0Spark SQL概述 什么是Spark SQL Spark SQL是Spark用于结构化数据(structured data)处理的Spark模块。与基本的Spark RDD API不同,Spark SQL的抽象数据类型为Spark提供了关于数据结构和正在执行的计算的更多信息。在内部,Spark SQL使用这些额外的信息去做一些额外的优化,有多种方式与Spark SQL进行交互,比如: SQL和Data

2021-12-23 00:43:03 218

原创 C————lickhouse

第1章 ClickHouse入门ClickHouse 是俄罗斯的Yandex于2016年开源的列式存储数据库(DBMS),使用C++语言编写,主要用于在线分析处理查询(OLAP),能够使用SQL查询实时生成分析数据报告。 ClickHouse的特点 1.1.1 列式存储以下面的表为例: Id Name Age 1 张三 18 2 ..

2021-12-23 00:36:17 698

原创 h——base

第1章 HBase简介1.1 HBase定义HBase是一种分布式、可扩展、支持海量数据存储的NoSQL数据库。1.2HBase数据模型逻辑上,HBase的数据模型同关系型数据库很类似,数据存储在一张表中,有行有列。但从HBase的底层物理存储结构(K-V)来看,HBase更像是一个multi-dimensional map。1.2.1 HBase逻辑结构1.2.2 HBase物理存储结构1.2.3数据模型1)Name Space命名空间,类似于关系型数据...

2021-12-23 00:34:03 578

原创 f数--仓

环境准备1.1虚拟机准备克隆三台虚拟机(hadoop101、hadoop102、hadoop103),配置好对应主机的网络IP、主机名称、关闭防火墙。设置hadoop102、hadoop103、hadoop104的主机对应内存分别是:4G、4G、4G1.2配置免密登录配置ssh免密登录[root@hadoop101 ~]# vim /etc/hosts127.0.0.1 localhost localhost.localdomain localhost4 localhost4...

2021-12-23 00:31:16 2591

原创 S_P_A_R_K_性能调优

Spark性能调优 常规性能调优 常规性能调优一:最优资源配置 Spark性能调优的第一步,就是为任务分配更多的资源,在一定范围内,增加资源的分配与性能的提升是成正比的,实现了最优的资源配置后,在此基础上再考虑进行后面论述的性能调优策略。资源的分配在使用脚本提交Spark任务时进行指定,标准的Spark任务提交脚本如代码清单2-1所示:代码清单2-1 标准Spark提交脚本/usr/opt/modules/spark/bin/spark-submit \--clas...

2021-12-20 22:23:28 170

原创 S_P_A_R_K_入门

第1章 Spark概述1.1 什么是SparkSpark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。1.2 Spark历史1.3 Spark内置模块Spark Core:实现了Spark的基本功能,包含任务调度、内存管理、错误恢复、与存储系统交互等模块。Spark Core中还包含了对弹性分布式数据集(Resilient Distributed DataSet,简称RDD)的API定义。Spark SQL:是Spark用来操作结构化数据的程序包。通过Spa..

2021-12-20 22:21:44 298

原创 S_P_A_R_K_stream

Spark Streaming概述 离线和实时概念 数据处理的延迟离线计算就是在计算开始前已知所有输入数据,输入数据不会产生变化,一般计算量级较大,计算时间也较长。例如今天早上一点,把昨天累积的日志,计算出所需结果。最经典的就是Hadoop的MapReduce方式;实时计算输入数据是可以以序列化的方式一个个输入并进行处理的,也就是说在开始的时候并不需要知道所有的输入数据。与离线计算相比,运行时间短,计算量级相对较小。强调计算过程的时间要短,即所查当下给出结果。 批量和流式概念..

2021-12-20 22:19:27 184

原创 S_P_A_R_K_SQL

尚硅谷大数据技术之SparkSQL(作者:尚硅谷大数据研发部)版本:V2.0Spark SQL概述 什么是Spark SQL Spark SQL是Spark用于结构化数据(structured data)处理的Spark模块。与基本的Spark RDD API不同,Spark SQL的抽象数据类型为Spark提供了关于数据结构和正在执行的计算的更多信息。在内部,Spark SQL使用这些额外的信息去做一些额外的优化,有多种方式与Spark SQL进行交互,比如: SQL和Data

2021-12-20 22:16:53 175

原创 S_P_A_R_K_core

尚硅谷大数据技术之SparkCore(作者:尚硅谷大数据研发部)版本:V2.0RDD概述 RDD引入之IO流 什么是RDD RDD特性 A list of partitions多个分区,分区可以看成是数据集的基本组成单位对于 RDD 来说,每个分区都会被一个计算任务处理, 并决定了并行计算的粒度。用户可以在创建 RDD 时指定 RDD 的分区数, 如果没有指定, 那么就会采用默认值。 默认值就是程序所分配到的 CPU Core 的数目.每个.

2021-12-20 22:14:34 172

原创 s_p_a_r_k_内核

Spark内核概述Spark内核泛指Spark的核心运行机制,包括Spark核心组件的运行机制、Spark任务调度机制、Spark内存管理机制、Spark核心功能的运行原理等,熟练掌握Spark内核原理,能够帮助我们更好地完成Spark代码设计,并能够帮助我们准确锁定项目运行过程中出现的问题的症结所在。 Spark核心组件回顾 1.1.1 DriverSpark驱动器节点,用于执行Spark任务中的main方法,负责实际代码的执行工作。Driver在Spark作业执行时主要负责:将...

2021-12-20 22:07:43 232

原创 1_gbl

//5.创建MySQL CDC SourceDebeziumSourceFunction<String> sourceFunction = MySQLSource.<String>builder().hostname("hadoop102").port(3306).username("root").password("000000").databaseList("gmall2021...

2021-12-06 00:10:12 193

原创 flink CDC binlog设置

StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();env.setParallelism(1);DebeziumSourceFunction<String> sourceFunction = MySqlSource.<String>builder() .hostname("hadoop102") .port(3306) .

2021-12-04 17:13:43 2148

原创 Flink_Sql

2.2 FlinkSQL方式的应用2.2.1 代码实现import org.apache.flink.api.common.restartstrategy.RestartStrategies;import org.apache.flink.runtime.state.filesystem.FsStateBackend;import org.apache.flink.streaming.api.CheckpointingMode;import org.apache.flink.stream

2021-12-03 00:23:23 80

原创 flink_CDC

第2章 FlinkCDC案例实操2.1 DataStream方式的应用2.1.1 导入依赖<dependencies><dependency><groupId>org.apache.flink</groupId><artifactId>flink-java</artifactId><version>1.12.0</version&gt...

2021-12-03 00:20:37 2046

原创 操作ml_f

flink listflink run -c class_nameyarn application -list | grepyarn application -kill

2021-11-29 00:12:32 132

原创 scala1_f_r_k

bin/yarn-session.sh -n 4 -s 4 -jm 2048 -tm 2048 -nm check_id &./flink run --class HardDiskSerial_Check com.flink.honor.wwc-1.0-SNAPSHOT.jar查看运行进程:ps -ef|grep java查看jps:jps -m查看yarn任务:yarn application -list | grep dmp通过命令来停止 yarn application ...

2021-11-28 23:50:00 105

原创 flink批处理_java

<properties> <maven.compiler.source>8</maven.compiler.source> <maven.compiler.target>8</maven.compiler.target> <flink.version>1.10.0</flink.version> <scala.bin.version>2.11&l..

2021-11-28 23:41:47 116

原创 hive出现错误:FAILED: ParseException line 6:0 character ‘ ‘ not supported here

明显是语法错误把代码复制到notepad++下替换掉非法空白符就可以了

2021-05-10 22:22:08 877 2

原创 jpsall查看集群jps状态sh脚本

在/bin 下创建jpsall文件打开写入以下内容:#!/bin/bash# 执行jps命令查询每台服务器上的节点状态echo ======================集群节点状态====================for i in hadoop102 hadoop103 hadoop104do echo ====================== $i ==================== sshatguigu@$i '/opt/module...

2021-04-14 16:01:33 652

原创 win10浏览器访问hadoop集群端口设置

Window下打开并修改C:\Windows\System32\drivers\etc\host192.168.1.102hadoop102 hadoop102192.168.1.102hadoop103hadoop103

2021-04-08 20:56:21 415

原创 win10下anaconda安装TensorFlow指定版本

首先下载安装anaconda:https://pan.baidu.com/s/11xJCoAEEqgYt3iAqZsaVyQ提取码:wxcl建议安装时修改安装路径不要使用官方路径不然会出现导包不正常的问题:傻瓜安装好后开始安装TensorFlow第一步、在anaconda中创建TensorFlow独立运行的环境:conda create --name tensorflow python=3.6然后激活环境:activate tensorflow第二步、使用命令安装指定版本

2020-06-09 10:33:49 1382

原创 IP代理池调用方式

前提:代理池已将ip存入Redis数据库中了,如何提高使用代理池中的IP质量通过一个访问脚本获得高质量访问目标网站的IP代理:# -*- coding: utf-8 -*-import threading,time,randomimport requestsimport redisimport refrom fake_useragent import UserAgentredis = redis.Redis(host='192.168.0.64', port='6666', passw

2020-05-26 16:23:38 709

原创 Python获取当前时间戳-毫秒

import timeimport rett = re.findall('^\d{13}',str(time.time()).replace('.',''))[0]print(tt)

2020-05-13 15:42:53 1819

原创 分布式多进程phantomjs优化

1、正确设计进程的超时时间避免堵塞2、正确放置异常的捕获位置3、灵活使用quit()方法4、redis哈希键分布式设计from selenium import webdriverimport threadingimport timeimport redisimport reimport csvimport datetimeimport pymysql...

2019-08-08 10:36:03 170

原创 redis识别归属地

##############号段入库标记############ -*- coding: utf-8 -*-import reimport redisr_conn = redis.Redis(host='192.168',port='6666',password='')import csvdef get_data(t1): f2 = open('合肥_手机号段查询.txt',...

2019-08-08 10:32:58 138

Appium-windows-1.15.1.txt

Appium最新版上传,txt内容是下载链接地址

2020-05-25

Appium-desktop1.13.0.rar

Appium-desktop1.13.0Windows版下载,GitHub下载慢的同学看过来啦,Appium-desktop1.13.0Windows版下载

2020-05-14

百度地图的scrapy爬虫项目

Python3.5,完整百度地图的scrapy爬虫项目代码,通过城市ID抓取海量商户数据

2018-04-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除