qq_44745905的博客

私信 关注
Rich Dad
码龄2年

你若盛开,蝴蝶自来

  • 38,765
    被访问量
  • 210
    原创文章
  • 47,146
    作者排名
  • 60
    粉丝数量
  • 于 2019-03-09 加入CSDN
获得成就
  • 获得49次点赞
  • 内容获得29次评论
  • 获得58次收藏
荣誉勋章
兴趣领域
  • #大数据
    #spark#hadoop#数据仓库#hive
TA的专栏
  • 西行日记
    43篇
  • 笔记
    3篇
  • Jupyter Notebook
    11篇
  • hive
    44篇
  • Anaconda
    19篇
  • 本周复盘
    1篇
  • 最近
  • 文章
  • 资源
  • 问答
  • 课程
  • 帖子
  • 收藏
  • 关注/订阅

开发 PySpark 的准备环境

@R星校长开发 PySpark 所需准备环境 1) 安装 python 环境  下载安装Anaconda。 详细见文档 “Anaconda安装及使用.docx”。  2) 安装 PyCharm  下载安装 PyCharm。 3) 官网下载 Spark 安装包  由于 PyCharm 开发 spark 需要本地 Spark 环境,所以要在官网中下载 Spark 安装包到本地(这里我们下载 Spark1.6 版本)。  A. 进入 Spark 官网,找到对应的 Spark 版本下载。  B..
原创
2阅读
0评论
0点赞
发布博客于 9 小时前

2021-03-02 大数据课程笔记 day41

@R星校长机器学习01【机器学习】主要内容Anconda安装使用python开发spark线性回归算法原理线性回归算法案例学习目标第一节 pySpark环境准备1).window配置python环境变量window安装python,配置python环境变量。安装python后,在环境变量path中加入安装的路径,cmd中输入python,检验python是否安装成功。 注意:如果使用的是anaconda安装的python环境,建议安装python3.5.x版本,这个版本和spar.
原创
13阅读
0评论
0点赞
发布博客于 11 小时前

2021-03-01 大数据课程笔记 day40

@R星校长Spark优化【Spark优化内容】主要内容Spark资源优化Spark并行度优化Spark代码优化内存调优Sparkshuffle优化堆外内存优化解决数据倾斜第一节 资源优化  1) .搭建Spark集群的时候要给Spark集群足够的资源(core,memory)  在spark安装包的conf下spark-env.sh   SPARK_WORKER_CORES   SPARK_WORKER_MEMORY   SPARK_WORKER_INSTANCE  2.
原创
2阅读
0评论
0点赞
发布博客于 昨天

2021-02-26~27~28 大数据课程笔记 day37day38day39

@R星校长音乐数据中心平台1.1 数据库与ER建模1.1.1 数据库(DataBase)数据库是按照数据结构来组织、存储和管理数据的仓库,是一个长期存储在计算机内的、有组织的、可共享的、统一管理的大量数据的集合。数据库是以一定方式储存在一起、能与多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合,可视为电子化的文件柜,存储电子文件的处所,用户可以对文件中的数据进行新增、查询、更新、删除等操作,数据组织主要是面向事务处理任务。1.1.2 数据库三范式关系型数据库设计时,遵照一定的.
原创
352阅读
1评论
0点赞
发布博客于 2 天前

2021-02-25 大数据课程笔记 day36

@R星校长Spark第八天【SparkStreaming内容】主要内容Kafka应用场景Kafka分布式消息系统原理Kafka集群搭建Kafka 操作命令Kafka Leader 均衡机制SparkStreaming与Kafka整合学习目标第一节 Kafka 介绍kafka是什么?使用场景?Kafka是一个高吞吐的分布式消息队列系统。特点是生产者消费者模式,先进先出(FIFO)保证顺序,自己不丢数据,默认每隔7天清理数据。消息列队常见场景:系统之间解耦合、峰值压力缓冲、异步.
原创
36阅读
0评论
0点赞
发布博客于 5 天前

2021-02-24 大数据课程笔记 day35

@R星校长Spark第七天【SparkSQL+SparkStreaming内容】主要内容SparkSQL开窗函数SparkSQL案例SparkStreaming&Strom区别SparkStreaming读取Socket数据SparkStreaming算子SparkStreaming Driver HA学习目标第一节 SparkSQL开窗函数开窗函数注意:row_number()开窗函数是按照某个字段分组,然后取另一字段的前几个的值,相当于 分组取topN,在MySq.
原创
10阅读
0评论
0点赞
发布博客于 6 天前

2021-02-23 大数据课程笔记 day34

@R星校长Spark第六天【SparkSQL内容】主要内容SparkSQL的演变过程Spark on Hive & Hive on SparkSparkSQL DataFrame创建DataFrame的方式Spark on Hive自定义函数UDF & UDAF开窗函数学习目标第一节 SparkSQL 介绍1. SharkShark是基于Spark计算框架之上且兼容Hive语法的SQL执行引擎,由于底层的计算采用了Spark,性能比MapReduce的Hive.
原创
18阅读
0评论
0点赞
发布博客于 7 天前

2021-02-22 大数据课程笔记 day33

@R星校长Spark 第五天【SparkCore 内容】主要内容广播变量和累加器Spark webui 界面Spark 历史日志服务器配置Spark MasterHASpark ShuffleSpark Shuffle 文件寻址Spark 内存管理Spark Shuffle 优化第一节 Spark 广播变量和累加器广播变量广播变量理解图广播变量使用val conf = new SparkConf()conf.setMaster("local").setAppN.
原创
19阅读
2评论
0点赞
发布博客于 8 天前

2021-02-21 大数据课程笔记 day32

@R星校长Spark 第四天【SparkCore 内容】主要内容Spark Master 启动源码Spark Submit 任务提交源码Spark Driver 启动源码Spark Application 注册并分配资源Spark 资源调度结论Spark 任务调度Spark 二次排序问题Spark 分组取 topN 问题学习目标第一节 Spark Master 启动Spark 资源任务调度对象关系图集群启动过程Spark 集群启动之后,首先调用 $SPARK_HOME/.
原创
30阅读
0评论
0点赞
发布博客于 9 天前

2021-02-20 大数据课程笔记 day31

@R星校长Spark 第三天【SparkCore内容】主要内容Spark-Core中的术语RDD的宽窄依赖Spark Stage & Spark计算模式Spark资源调度和任务调度Spark补充算子Spark PV&UV 案例Spark-Submit提交参数学习目标第一节 术语与宽窄依赖术语解释窄依赖和宽依赖RDD 之间有一系列的依赖关系,依赖关系又分为窄依赖和宽依赖。窄依赖父 RDD 和子 RDD partition 之间的关系是一对一的。或者父 R.
原创
12阅读
2评论
0点赞
发布博客于 10 天前

2021-02-19 大数据课程笔记 day30

@R星校长Spark第二天【SparkCore内容】主要内容Spark集群搭建Spark Spark Pi任务提交Spark on Yarn 配置Spark基于Standalone任务提交两种模式Spark基于Yarn任务提交两种模式Spark部分Transformation算子Spark部分Action算子学习目标第一节 Spark 集群搭建Standalone 集群搭建与 Spark on Yarn 配置 StandaloneStandalone 集群是 Spark.
原创
8阅读
0评论
0点赞
发布博客于 11 天前

2021-02-18 大数据课程笔记 day29

@R星校长Spark 第一天【 SparkCore 内容】主要内容Spark 概念Spark 技术栈内容Spark 与 MapReduce 区别Spark 运行模式Spark Java-Scala 混编 Maven 项目创建Spark 核心 RDDSpark 代码流程Spark 部分算子Spark 持久化算子学习目标第一节 Spark 初始什么是 SparkApache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark 是UC Berkeley A.
原创
17阅读
0评论
0点赞
发布博客于 12 天前

2021-02-17 大数据课程笔记 day28

@R星校长Scala第二天【Scala内容】主要内容Scala 迭代器模式处理数据ScalaTrait 特质特性Scala 模式匹配Scala 偏函数Scala 样例类Scala 隐式转换Scala Actor 通信模型Spark WordCount学习目标第一节 Scala 迭代器模式 + Trait 特质特性Scala迭代器模式处理数据scala 中创建集合需要内存,集合与集合之间的转换时,每次转换生成新的集合时,新的集合也需要内存。如果有一个非常大的初始集合,需要经过.
原创
37阅读
0评论
0点赞
发布博客于 13 天前

2021-02-16 大数据课程笔记 day27

@R星校长Scala 第一天【Scala内容】主要内容Scala介绍Scala安装使用Scala数据对象Scala类和对象Scala流程控制Scala方法与函数Scala字符串Scala集合学习目标第一节 Scala介绍为什么学习Scala语言Scala 是基于JVM 的语言,与 java 语言类似,Java 语言是基于 JVM 的面向对象的语言。Scala 也是基于 JVM ,同时支持面向对象和面向函数的编程语言。这里学习 Scala 语言的原因是后期我们会学习一个优.
原创
17阅读
0评论
0点赞
发布博客于 14 天前

2021-02-15 大数据课程笔记 day26

@R星校长Python 教程 day02第七章 类和对象面向对象编程介绍  面向对象编程——Object Oriented Programming,简称 OOP,是一种程序设计思想。OOP 把对象作为程序的基本单元,一个对象包含了数据和操作数据的函数。面向对象是一种对现实世界理解和抽象的方法。  “面向过程” (Procedure Oriented) 是一种以过程为中心的编程思想。“面向过程”也可称之为“面向记录”编程思想,他们不支持丰富的“面向对象”特性(比如继承、多态、封装),并且它们不允许.
原创
111阅读
0评论
0点赞
发布博客于 15 天前

2021-02-14 大数据课程笔记 day25

@R星校长Python教程第一章Python的介绍python介绍一种面向对象,面向函数的解释型计算机程序设计语言,由荷兰人Guido van Rossum(龟叔)于1989年发明,第一个公开发行版发行于1991年。Python是纯粹的自由软件, 源代码和解释器 CPython 遵循 GPL(GNU General Public License) 协议[2]. Python 语法简洁清晰,特色之一是强制用空白符(white space)作为语句缩进。Python 具有丰富和强大的库。它常被昵称为胶.
原创
173阅读
1评论
0点赞
发布博客于 16 天前

2021-02-13 大数据课程笔记 day24

@R星校长Lucene 与 ElasticSearch 概述Lucene 全文检索Lucene 概述Lucene 是一个全文搜索框架,而不是应用产品。因此它并不像http://www.baidu.com/ 或者 google Desktop 那么拿来就能用,它只是提供了一种工具让你能实现这些产品。lucene 能做什么 :本质就是给搜索内容定位要回答这个问题,先要了解lucene的本质。实际上lucene的功能很单一,说到底,就是你给它若干个字符串,然后它为你提供一个全文搜索服务,告诉你你.
原创
647阅读
0评论
0点赞
发布博客于 17 天前

2021-02-12 大数据课程笔记 day23

@R星校长redis 概述为什么使用 redis?什么是 Redis?Redis是用C语言开发的一个开源的高性能键值对(key-value)内存数据库。它提供六种数据类型来存储值:string 字符串类型、hash 散列类型、list 列表类型、set 集合类型、zset(SortedSet) 有序集合类型、stream 流类型。它是一种 NoSQL 数据库。Redis 历史发展2008 年,意大利的一家创业公司 Merzia 推出了一款基于 MySQL 的网站实时统计系统 LL.
原创
119阅读
0评论
0点赞
发布博客于 18 天前

2021-02-11 大数据课程笔记 day22

第3天 离线项目-3 新增用户数据处理时间维度浏览器维度平台维度KPI 一个工具维度通过以上四个维度的各种组合,计算它的新增用户指标课程大纲项目模块设计思路新增用户指标 mapper 开发新增用户指标 reducer 开发新增用户指标 Runner 开发MapReduce 结果存 MySQL新增用户指标运行结果hbaseuuid,servertime,browser,platform,kpi事件 lanuch 时间 浏览器 平台 kpi 模块 时间
原创
221阅读
1评论
0点赞
发布博客于 19 天前

2021-02-10 大数据课程笔记 day21

@R星校长离线项目第二天flume sinksHDFS Sink (使用较多)属性名称默认值说明channel-type-组件类型名称,必须是hdfshdfs.path-HDFS路径,如hdfs://mycluster/flume/mydatahdfs.filePrefixFlumeDataflume在hdfs目录中创建文件的前缀hdfs.fileSuffix-flume在hdfs目录中创建文件的后缀。hdfs.inUsePr.
原创
29阅读
0评论
0点赞
发布博客于 20 天前

2021-02-08/09 大数据课程笔记 day19day20 某大型网站日志分析离线系统

@R星校长某大型网站日志分析离线系统项目需求分析概述该部分的主要目标就是描述本次项目最终七个分析模块的界面展示。工作流  在我们的 demo 展示中,我们使用 jquery+echarts 的方式调用程序后台提供的 rest api 接口,获取 json 数据,然后通过 jquery+css 的方式进行数据展示。工作流程如下:分析总述在本次项目中我们分别从七个大的角度来进行分析,分别为:用户基本信息分析模块浏览器信息分析模块地域信息分析模块用户浏览深度分析模块外链数据分析模块.
原创
775阅读
0评论
0点赞
发布博客于 21 天前

2021-02-07 大数据课程笔记 day18

@R星校长初识 HBasehbase 介绍概述Welcome to Apache HBase™Apache HBase™ is the Hadoop database, a distributed, scalable, big data store.Use Apache HBase™ when you need random, realtime read/write access to your Big Data. This project’s goal is the hosting of v.
原创
112阅读
0评论
0点赞
发布博客于 23 天前

2021-02-06 大数据课程笔记 day17

@R星校长Hive Lateral View、视图与索引Hive Lateral ViewLateral View 用于和 UDTF 函数(explode、split)结合来使用。首先通过 UDTF 函数拆分成多行,再将多行结果组合成一个支持别名的虚拟表。主要解决在 select 使用 UDTF 做查询过程中,查询只能包含单个 UDTF,不能包含其他字段、以及多个 UDTF 的问题语法:LATERAL VIEW udtf(expression) tableAlias AS columnA.
原创
40阅读
0评论
0点赞
发布博客于 24 天前

2021-02-05 大数据课程笔记 day16

@R星校长Hive SQLHive SerDeHive SerDe - Serializer and DeserializerSerDe 用于做序列化和反序列化。构建在数据存储和执行引擎之间,对两者实现解耦。Hive 通过 ROW FORMAT DELIMITED 以及 SERDE 进行内容的读写。row_format: DELIMITED [FIELDS TERMINATED BY char [ESCAPED BY char]] [COLLEC.
原创
88阅读
0评论
0点赞
发布博客于 25 天前

mount: 在 /dev/sr0 上找不到媒体 & mount: 挂载点 /mnt/cdrom 不存在

@R星校长遇到两个问题:mount: 在 /dev/sr0 上找不到媒体mount: 挂载点 /mnt/cdrom 不存在问题 1:灰色显示表示这个没有连接上 可移动设备勾选启动时连接,如果设备是启动状态就还要勾选已连接 ,并且连接处要选择好ISO映像文件,点击浏览,选择电脑对应位置的镜像文件。问题 2:挂在目录不存在,说明缺少文件目录,我们这个时候需要新建目录,mkdir -p 中的 - p 表示 可以在父目录中创建子目录mkdir -p /mnt/cdrom.
原创
73阅读
0评论
0点赞
发布博客于 26 天前

2021-02-04 大数据课程笔记 day15

@R星校长HiveHive简介http://hive.apache.org/Apache Hive 数据仓库软件方便了使用 SQL 读取、写入和管理驻留在分布式存储中的大型数据集。结构可以投影到已经存储的数据上。提供命令行工具和 JDBC 驱动程序将用户连接到 Hive。Hive 产生的原因:非 java 编程者通过 SQL 语句对 hdfs 的数据做 mapreduce 操作。对比项Hive关系型数据库查询语音HQLSQL数据存储HDFSLocal FS .
原创
73阅读
0评论
0点赞
发布博客于 26 天前

2021-02-03 大数据课程笔记 day14

@R星校长MapReduce 实战2 案例-2课程内容PageRankTF-IDFitemCFPageRank概念PageRank 是 Google 提出的算法,用于衡量特定网页相对于搜索引擎索引中的其他网页而言的重要程度。是 Google 创始人拉里·佩奇和谢尔盖·布林于1997年创造的 PageRank 实现了将链接价值概念作为排名因素。GOOGLE PageRank 并不是唯一的链接相关的排名算法,而是最为广泛使用的一种。其他算法还有:1、 Hilltop 算法2、 Exper.
原创
37阅读
0评论
0点赞
发布博客于 27 天前

2021-02-02 大数据课程笔记 day13

@R星校长MapReduce实战案例-1课程内容好友推荐天气案例好友推荐需求该给 hadoop 推荐哪个间接好友呢?两个人之间不认识,但是共同好友数越多,推荐的可能性越大数据集QQ:tom hello hadoop cathadoop tom hive worldworld hadoop hello hivecat tom hivemr hive hellohive cat hadoop world hello mrhello tom world hive mr特点.
原创
20阅读
0评论
0点赞
发布博客于 28 天前

2021-02-01 大数据课程笔记 day12

@R星校长mapreduce 计算流程:首先将 block 块进行逻辑切片的计算,每个切片(split)对应一个 map 任务切片是为了将 block 数量和 map 任务数量解耦。map 读取切片数据,默认按行读取,作为键值对交给 map 方法,其中 key 是当前读取的行在文件中的字节偏移量,value 就是读取的当前行的内容。map 开始计算,自定义的逻辑。map 将输出的 kv 首先写到环形缓冲区,在写之前计算分区号(默认按照 key 的 hash 值对 reducer 的个数取模)。.
原创
27阅读
0评论
0点赞
发布博客于 29 天前

2021-01-31 大数据课程笔记 day11

@R星校长课程内容mapreduce 原语(独创)mapreduce 工作流程(重点)MR 作业提交流程(重点)YARN RM-HA 搭建(熟练)运行自带的 wordcount(了解)动手写 wordcount(熟练)MapReduce 概述Google 发表了两篇论文《Google File System》 《Google MapReduce》《Google File System》简称 GFS,是 Google 公司用于解决海量数据存储的文件系统。《Google MapRedu.
原创
36阅读
0评论
0点赞
发布博客于 2 月前

CentOS 7 链接克隆的虚拟机需要改那些配置?

@R星校长拿 node0 母机的配置和 node3 链接克隆机做对比,我们会发现,UUID 和 IPADDP ,HWADDR 都一样,所以我们需要改这三个地方,其中 IPADDP 是修改一下主机地址,HWADDR 需要改成网卡新生成的硬件地址,而 UUID 直接删除,使用 Esc 模式下,光标移动到对应位置然后敲击 dd,两下 d 删除光标所在行查看/etc/udev/rules.d/ 下 是否又 70-persistent-net.rules 文件 (我机子上没有,有也可以删除,这里介绍一种.
原创
21阅读
0评论
0点赞
发布博客于 2 月前

CentOS 7 开启防火墙及特定端口 & service iptables start 报 Redirecting to /bin/systemctl start iptables.service

@R星校长
原创
17阅读
0评论
0点赞
发布博客于 2 月前

service network restart 失败 & SSH远程登录失败 & 网卡命名

Google 给出的答案,跟系统自带的 NetworkManager 这个管理套件有关系,关掉就可以解决。systemctl stop NetworkManagersystemctl disable NetworkManager重新启动网络:systemctl start network.service最好重启虚拟机或重启 reboot,再次查看网络 systemctl status network。ip addr网络正常启动,访问正常。...
原创
28阅读
0评论
0点赞
发布博客于 2 月前

2021-01-30 大数据课程笔记 day10

@R星校长课程重点HDFS 完全分布式搭建(熟练)Hadoop 3.x 新特性(了解)Hadoop Federation(了解)Hadoop HA(掌握)Hadoop HA 集群搭建(熟练)java 客户端操作 HDFS(熟练)HDFS 完全分布式搭建规划node1node2node3node4NameNodeSecondaryNameNodeDataNode-1DataNode-2DataNode-3基础设置a) 网络b) ssh.
原创
51阅读
0评论
0点赞
发布博客于 2 月前

2021-01-29 大数据课程笔记 day9

@R星校长hadoop 第一天Hadoop一共六天课程:分布式存储 两天MapReduce计算 两天案例 两天第一天内容安排1T文件操作(训练)hadoop起源(了解)HDFS架构(重点)数据块副本放置策略(重点)HDFS的权限(了解)hadoop的安全模式(理解)HDFS写文件流程(重点)HDFS读文件流程(重点)伪分布式搭建(熟练)热身1T文件操作的思考:分治思想单机处理大数据的问题集群分布式处理大数据的辩证分治思想引入案例十万个元素(数字或单词.
原创
102阅读
0评论
0点赞
发布博客于 2 月前

2021-01-28 大数据课程笔记 day8

@R星校长ZooKeeper 基础为什么使用 ZooKeeper?集群存在大量服务器时,出现故障时在所难免的,那么如何快速知道哪些服务器出现故障?Nginx 作为负载均衡管理大量服务器时,管理起来比较麻烦,可以通过 zookeeper 注册服务与发现服务协作管理。以前大部分应用需要开发私有的协调程序,缺乏一个通用的机制协调程序的反复编写浪费,且难以形成通用、伸缩性好的协调器使用分布式部署后,多线程安全的问题,以前学的同步代码块、重构锁、读写锁等通通失效,怎么办?ZooKeeper概述.
原创
27阅读
0评论
0点赞
发布博客于 2 月前

2021-01-27 大数据课程笔记 day7

@R星校长Nginx问题引入单个 tomcat 支持最高并发怎么解决高并发问题,解决单个服务器过载问题?Nginx概述Nginx 介绍1、 Nginx (“engine x”) 是一个高性能的 静态HTTP 和 反向代理 服务器,也是一个 IMAP/POP3/SMTP 代理服务器。2、 第一个公开版本0.1.0发布于2004年10月4日。3、 其将源代码以类 BSD 许可证的形式发布,因它的稳定性、丰富的功能集、示例配置文件和低系统资源的消耗而闻名4、 官方测试 nginx .
原创
110阅读
0评论
0点赞
发布博客于 2 月前

2021-01-26 大数据课程笔记 day6

@R星校长Linux 中软件安装方式rpm安装软件rpm概述RPM(RedHat Package Manager)安装管理这个机制最早是由 Red Hat 开发出来,后来实在很好用,因此很多 distributions(发行版)就使用这个机制来作为软件安装的管理方式 。包括 Fedora , CentOS , SuSE 等等知名的开发商。RPM 的优点RPM 内含已经编译过的程序与配置文件等数据,可以让用户免除重 新编译的困扰RPM 在被安装之前,会先检查系统的硬盘容量、操作系统版.
原创
43阅读
0评论
0点赞
发布博客于 2 月前

2021-01-25 大数据课程笔记 day5

@R星校长Linuxcutcut:显示切割的行数据s:不显示没有分隔符的行d:指定分隔符对源文件的行进行分割-f 选定显示哪些列m-n m列到n列-n 第一列到n列m- 第m列到最后列n 第n列以: 作为分隔符,切割 passwd ,输出从第 3 个字段到第 5 个字段cut -d ":" -f 3-5 /etc/passwd输出前两列内容:cp /etc/passwd ./cut -d ":" -f -2 passwd输出字段 3 到最后一个字段指定输.
原创
24阅读
0评论
0点赞
发布博客于 2 月前

2021-01-24 大数据课程笔记 day4

@R星校长cd 命令练习:我们知道 hadoop 这个用户的主文件夹是 /home/hadoop/ ,而 root 用户的主文件夹是 /root/ ,我们使用 root 账号登录,完成以下练习:cd [绝对路劲或相对路径或特殊符号]如何从其它目录切换目录到 hadoop 用户的主文件夹:方式一:绝对路径的方式方式二:特殊符号如何回到 root 用户自己的主文件夹?方式一:绝对路径的方式cd /root/方式二:特殊符号方式cd ~如何回到刚才访问的目录(不论是哪一个目录)?c.
原创
44阅读
0评论
0点赞
发布博客于 2 月前

2021-01-23 大数据课程笔记 day3

@R星校长输入:“vi /etc/hosts”编辑hosts文件,添加本地解析条目添加如下条目:此时域名node0、node1、node2、node3、node4会被解析为配置的IP地址。保存退出。上图可见,在 ping node0 的时候,node0 解析为了192.168.20.100。这个时候就可以使用 XShell 工具连接来远程连接虚拟机操作系统进行工作了。打开 XShell ,输入 “ssh root@192.168.20.100” 回车,在弹出的对话框中输入密码:123.
原创
48阅读
0评论
0点赞
发布博客于 2 月前

2021-01-22 大数据课程笔记 day2

安装vmware软件(已安装的不需要重启安装)上述两个版本,根据系统不同来安装,建议使用VMware12.5.6版本的VMware。win10版本在1903,则安装15版本的vmware而我用的版本是20H2,所以索性用15pro版本 Windows 10 专业版版本号 20H2安装日期 ‎2020-‎11-‎03操作系统版本 19042.746体验 Windows Feature Experience Pack 120.2212.551.0安装Xshell.exe和Xftp.exe
原创
63阅读
0评论
0点赞
发布博客于 2 月前

2021-01-21 大数据课程笔记 day1

@R星校长内存的访问效率是硬盘的10万倍Zoo 动物园 Keeper 管理者 因为 hadoop 大象 pig 小猪 都是他们开发的,再有一些这样的起名的软件,我们就成动物园了 ,所以我们这款产品就叫动物园管理员吧如你有几千台服务器的集群,你就需要用 ZooKeeper 监控,看那台服务器宕机了ElasticSearch 学起来很快,因为它是站在巨人 Lucene 的肩膀上因为实时计算 Spark 的底层代码是用 Scala 写的,所以 Scala 也需要学习,配合 Spark 做实时.
原创
37阅读
0评论
0点赞
发布博客于 2 月前

case when 数据透视图

@R星校长Table 1IDTypeIs_active1AY1BN2AY2CY3CY假设表格1有三列,分别是 商场id比如 商场1 商场2 商场3产品类别比如A B C 是否在售 : Y 表示 Yes 在售 N表示No现在想转化成透视表格,也就是每个商场用一行写清楚要把同一个商场的所有记录整合成一行,还需要结合使用 GROUP BY一步步来,先看没有 GROUP BY 的情况select id,case when t.
原创
29阅读
0评论
0点赞
发布博客于 2 月前

Leetcode 进阶题

511.Game Play Analysis 1This table shows the activity of players of some game.这张表显示了一些游戏玩家的活动情况。Each row is a record of a player who logged in and played a number of games(possibly 0) before logging out on some day using some device.每一行都是一位玩家的记录,他在某一天
原创
17阅读
0评论
0点赞
发布博客于 2 月前

sklearn数据预处理(一)

@R星校长第1关:标准化为什么要进行标准化,Z-score标准化,Min-max标准化,MaxAbs标准化。为什么要进行标准化对于大多数数据挖掘算法来说,数据集的标准化是基本要求。这是因为,如果特征不服从或者近似服从标准正态分布(即,零均值、单位标准差的正态分布)的话,算法的表现会大打折扣。实际上,我们经常忽略数据的分布形状,而仅仅做零均值、单位标准差的处理。在一个机器学习算法的目标函数里的很多元素所有特征都近似零均值,方差具有相同的阶。如果某个特征的方差的数量级大于其它的特征,那么,这.
原创
29阅读
0评论
0点赞
发布博客于 2 月前

Pandas数据预处理(三)

@R星校长第3关:标准化数据本关任务:使用read_csv()加载数据集data1和data2,然后按照编程要求对数据进行合并和清洗,最后将数据标准化。相关知识数据标准化处理是数据挖掘的一项基础工作,不同评价指标往往具有不同的量纲(将一个物理导出量用若干个基本量的乘方之积表示出来的表达式,称为该物理量的量纲式,简称量纲)和量纲单位,当各指标间的水平相差很大时,如果直接用原始指标值进行分析,就会突出数值较高的指标在综合分析中的作用,相对削弱数值水平较低指标的作用。为了消除指标之间的量纲影响,保证结果.
原创
24阅读
0评论
0点赞
发布博客于 2 月前

JDK 9 10 11 12 Tomcat报500错误

@R星校长JDK12 环境下报错问题描述:JDK12 环境下将报表工程部署到 Tomcat 服务器端,会报 500 错误。如下图所示:解决方案:JDK9 及之后的版本是没有 tools.jar 的,安装低版本 JDK 部署即可。
原创
8阅读
0评论
0点赞
发布博客于 2 月前

FineReport Tomcat默认编码不是UTF-8,如何修改

@R星校长点击跳转至Tomcat7 编码修改为 UTF-8Tomcat7 及之前的版本,URIEncoding 默认值是 ISO8859-1;而从 Tomcat8.0 开始,URIEncoding 默认值不再是 ISO8859-1,而变成了 UTF-8。因此报表工程部署在 Tomcat7 时,会导致平台工程中搜索有 bug,后台中文被转码,搜索不到中文内容等问题。需要修改%Tomcat_HOME%\conf目录下的 server.xml 文件,将代码中的编码修改为 UTF-8 格式,如下图所示.
原创
15阅读
0评论
0点赞
发布博客于 2 月前

FineReport服务器部署包

@R星校长服务器部署包下载1)点击跳转至服务器部署包下载地址:服务器部署包 。服务器部署包解压缩将下载好的部署包解压至某个目录下,例如D:\tomcat-win64。启动 Tomcat 服务器进入文件解压目录%Tomcat_HOME%/tomcat-win64/bin下,根据不同系统,执行startup.bat或者startup.sh即可启动 Tomcat 服务器。以 Windows 系统为例,双击startup.bat,启动 Tomcat 服务器。访问数据决策系统访问数据决策系统.
原创
77阅读
0评论
0点赞
发布博客于 2 月前

Pandas数据预处理(二)

@R星校长第2关:清洗数据任务描述本关任务:读取数据,输出删除NA值以及重复值之后的结果,并重置索引列。相关知识数据清洗的目的有两个,第一是通过清洗让数据可用。第二是让数据变的更适合进行后续的分析工作。换句话说就是有”脏”数据要洗,干净的数据也要洗。缺失值处理检查缺失值Pandas提供了isnull()和notnull()两个函数来检测数据中的NaN值。Series和DataFrame对象都可以使用。df = pd.DataFrame({ "one": [1, 2, np.nan.
原创
43阅读
0评论
0点赞
发布博客于 2 月前

分组查询and复杂查询(笔记)

@R星校长原文跳转分组查询查询各科成绩最高和最低的分, 以如下的形式显示:课程号,最高分,最低分/*分析思路select 查询结果 [课程ID:是课程号的别名,最高分:max(成绩) ,最低分:min(成绩)]from 从哪张表中查找数据 [成绩表score]where 查询条件 [没有]group by 分组 [各科成绩:也就是每门课程的成绩,需要按课程号分组];*/select 课程号,max(成绩) as 最高分,min(成绩) as 最低分from scoregroup.
原创
17阅读
0评论
0点赞
发布博客于 2 月前

Pandas数据预处理(一)

@R星校长第1关:合并数据Pandas提供了一套合并数据集操作的方法,本实训主要介绍merge()、concat()和combine_first()实现。merge()merge()可根据一个或者多个键将不同的DataFrame连接在一起,类似于SQL数据库中的合并操作。参数名说明left拼接左侧DataFrame对象right拼接右侧DataFrame对象on列(名称)连接,必须在左和右DataFrame对象中存在(找到)。left_on左侧Dat.
原创
38阅读
0评论
0点赞
发布博客于 2 月前

Pandas初体验(八)

@R星校长第8关:层次化索引层次化索引层次化索引(hierarchical indexing)是pandas的一项重要功能,它使我们能在一个轴上拥有多个(两个以上)索引级别。请看以下例子:In[1]:data = Series(np.random.randn(10), index = [['a', 'a', 'a', 'b', 'b', 'b', 'c', 'c', 'd', 'd' ],[1,2,3,1,2,3,1,2,2,3]])In[2]:dataOut[2]:a 1 0.16.
原创
20阅读
0评论
0点赞
发布博客于 2 月前

Pandas初体验(七)

@R星校长第7关:数据的基本操作——去重duplicated()DataFrame的duplicated方法返回一个布尔型Series,表示各行是否是重复行。具体用法如下:In[1]: df = DataFrame({'k1':['one']*3 + ['two']*4, 'k2':[1,1,2,3,3,4,4]})In[2]: dfOut[2]: k1 k20 one 11 one 12 one 23 two 34 two 35 two.
原创
29阅读
0评论
0点赞
发布博客于 2 月前

Pandas初体验(六)

@R星校长第6关:数据的基本操作——算术运算算术运算(+,-,*,/)DataFrame中的算术运算是df中对应位置的元素的算术运算,如果没有共同的元素,则用NaN代替。In[5]: df1 = DataFrame(np.arange(12.).reshape((3,4)),columns=list('abcd'))In[6]: df2 = DataFrame(np.arange(20.).reshape((4,5)),columns=list('abcde'))In[9]: df1+df2.
原创
42阅读
0评论
0点赞
发布博客于 2 月前

Pandas初体验(五)

@R星校长第5关:数据的基本操作——删除删除指定轴上的项即删除Series的元素或DataFrame的某一行(列)的意思,我们可以通过对象的drop(labels, axis=0)方法实现此功能。删除Series的一个元素:In[11]: ser = Series([4.5,7.2,-5.3,3.6], index=['d','b','a','c'])In[13]: ser.drop('c')Out[13]: d 4.5b 7.2a -5.3dtype: float6.
原创
29阅读
0评论
0点赞
发布博客于 2 月前

Pandas初体验(四)

@R星校长第4关:数据的基本操作——排序本关我们将学习处理Series和DataFrame中的数据的基本手段,我们将会探讨Pandas最为重要的一些功能。对索引进行排序Series用sort_index()按索引排序,sort_values()按值排序;DataFrame也是用sort_index()和sort_values()。In[73]: obj = Series(range(4), index=['d','a','b','c'])In[74]: obj.sort_index() .
原创
31阅读
1评论
0点赞
发布博客于 2 月前

Pandas初体验(三)

@R星校长第3关:读取CSV格式数据读取CSV# Reading a csv into Pandas.# 如果数据集中有中文的话,最好在里面加上 encoding = 'gbk' ,以避免乱码问题。后面的导出数据的时候也一样。df = pd.read_csv('uk_rain_2014.csv', header=0)这里我们从csv文件里导入了数据,并储存在DataFrame中。这一步非常简单,你只需要调用read_csv然后将文件的路径传进去就行了。header关键字告诉Pandas哪些是.
原创
30阅读
1评论
0点赞
发布博客于 2 月前

Pandas初体验(二)

@R星校长第2关:了解数据处理对象-DataFrameDataFrame是一个表格型的数据结构,是以一个或多个二维块存放的数据表格(层次化索引),DataFrame既有行索引还有列索引,它有一组有序的列,每列既可以是不同类型(数值、字符串、布尔型)的数据,或者可以看做由Series组成的字典。DataFrame创建:dictionary = {‘state’:[‘0hio’,’0hio’,’0hio’,’Nevada’,’Nevada’], ‘year’:[2000,2001,2002,200.
原创
24阅读
2评论
1点赞
发布博客于 2 月前

Pandas初体验(一)

@R星校长第1关:了解数据处理对象–SeriesPandas是为了解决数据分析任务而创建的,纳入了大量的库和标准数据模型,提供了高效地操作大型数据集所需的工具。对于Pandas包,在Python中常见的导入方法如下:from pandas import Series,DataFrameimport pandas as pdPandas中的数据结构Series:一维数组,类似于Python中的基本数据结构list,区别是Series只允许存储相同的数据类型,这样可以更有效的使用内存,提高运.
原创
41阅读
0评论
0点赞
发布博客于 2 月前

NumPy数组的高级操作(五)

@R星校长第5关:线性代数numpy的线性代数线性代数(如矩阵乘法、矩阵分解、行列式以及其他方阵数学等)是任何数组库的重要组成部分,一般我们使用*对两个二维数组相乘得到的是一个元素级的积,而不是一个矩阵点积。因此numpy提供了线性代数函数库linalg,该库包含了线性代数所需的所有功能。常用的numpy.linalg函数:函数说明dot矩阵乘法vdot两个向量的点积det计算矩阵的行列式inv计算方阵的逆svd计算奇异值分解(SVD).
原创
29阅读
0评论
0点赞
发布博客于 2 月前

NumPy数组的高级操作(四)

@R星校长第4关:广播机制什么是广播两个ndarray对象的相加、相减以及相乘都是对应元素之间的操作。import numpy as npx = np.array([[2,2,3],[1,2,3]])y = np.array([[1,1,3],[2,2,4]])print(x*y) '''输入结果如下:[[ 2 2 9] [ 2 4 12]]'''当两个ndarray对象的形状并不相同的时候,我们可以通过扩展数组的方法来实现相加、相减、相乘等操作,这种机制叫做广播(br.
原创
33阅读
0评论
0点赞
发布博客于 2 月前

NumPy数组的高级操作(三)

@R星校长第3关:花式索引与布尔索引花式索引花式索引(Fancy Indexing)是NumPy用来描述使用整型数组(这里的数组,可以是NumPy的数组,也可以是python自带的list)作为索引的术语,其意义是根据索引数组的值作为目标数组的某个轴的下标来取值。使用一维整型数组作为索引,如果被索引数组(ndarray)是一维数组,那么索引的结果就是对应位置的元素;如果被索引数组(ndarray)是二维数组,那么就是对应下标的行。如下图所示:示例代码如下:import numpy as np.
原创
30阅读
0评论
0点赞
发布博客于 2 月前

NumPy数组的高级操作(二)

@R星校长第2关:比较、掩码和布尔逻辑比较在许多情况下,数据集可能不完整或因无效数据的存在而受到污染。我们要基于某些准则来抽取、修改、计数或对一个数组中的值进行其他操作时,就需要掩码了。接下来将学习如何用 布尔掩码 来查看和操作数组中的值。和算术运算符一样,比较运算符在numpy中也是通过通用函数来实现的。比较运算符和其对应的通用函数如下:比较运算符通用函数==np.equal!=np.not_equal<np.less<=np.less.
原创
27阅读
0评论
0点赞
发布博客于 2 月前

NumPy数组的高级操作(一)

@R星校长stackstack的意思是堆叠的意思,所谓的堆叠就是将两个ndarray对象堆叠在一起组合成一个新的ndarray对象。根据堆叠的方向不同分为hstack以及vstack两种。hstack假如你是某公司的HR,需要记录公司员工的一些基本信息。可能你现在已经记录了如下信息:工号姓名出生年月联系电话1张三1988.12133233323332李四1987.2159666666663王五1990.1137777777774周六.
原创
33阅读
0评论
0点赞
发布博客于 2 月前

NumPy基础及取值操作(五)

@R星校长第5关:索引与切片索引ndarray的索引其实和python的list的索引极为相似。元素的索引从0开始。代码如下:import numpy as np# a中有4个元素,那么这些元素的索引分别为0,1,2,3a = np.array([2, 15, 3, 7])# 打印第2个元素# 索引1表示的是a中的第2个元素# 结果为15print(a[1])# b是个2行3列的二维数组b = np.array([[1, 2, 3], [4, 5, 6]])# 打印b中的第1行.
原创
34阅读
0评论
1点赞
发布博客于 2 月前

NumPy基础及取值操作(四)

@R星校长第4关:随机数生成简单随机数生成NumPy的random模块下提供了许多生成随机数的函数,如果对于随机数的概率分布没有什么要求,则通常可以使用random_sample、choice、randint等函数来实现生成随机数的功能。random_samplerandom_sample用于生成区间为[0, 1]的随机数,需要填写的参数size表示生成的随机数的形状,比如size=[2, 3]那么则会生成一个2行3列的ndarray,并用随机值填充。示例代码如下:import numpy a.
原创
90阅读
0评论
0点赞
发布博客于 2 月前

NumPy基础及取值操作(三)

@R星校长第3关:基础操作算术运算如果想要对ndarray对象中的元素做elementwise(逐个元素地)的算术运算非常简单,加减乘除即可。代码如下:import numpy as npa = np.array([0, 1, 2, 3])# a中的所有元素都加2,结果为[2, 3, 4, 5]b = a + 2# a中的所有元素都减2,结果为[-2, -1, 0, 1]c = a - 2# a中的所有元素都乘以2,结果为[0, 2, 4, 6]d = a * 2# a中.
原创
59阅读
0评论
0点赞
发布博客于 2 月前

NumPy基础及取值操作(二)

@R星校长第2关:形状操作怎样改变ndarray对象的形状改变形状上一关介绍了怎样实例化ndarray对象,比如想实例化一个3行4列的二维数组,并且数组中的值全为0。就可能会写如下代码:import numpy as npa = np.zeros((3, 4))那如果想把a变成4行3列的二维数组,怎么办呢?比较聪明的同学可能会想到这样的代码:import numpy as npa = np.zeros((3, 4))# 直接修改shape属性a.shape = [4, 3]最后.
原创
29阅读
0评论
0点赞
发布博客于 2 月前

2020-12-08 今天我宣布,我的博客要开始转型,专注于人工智能的数据分支,选择数据工程师到大数据工程师的进阶路线

@R星校长今日决定受到吴军一篇文章影响,《硅谷来信第三季》第037封信 | 凭一己之力能做到多少事?李希霍芬的大部分旅行发生在他23岁大学毕业时到38岁这之间的15年,这中间他很少有机会回到德国的家。这一段时间应该讲是人生最美好、最年富力强的时间,李希霍芬用这15年做了最有意义的事情。如果你是一个大学生,或者你的孩子在读大学,你可以了解一下李希霍芬的故事。人未必需要在刚从学校毕业的时候,就把自己的目标定在尽快有房有车上,应该考虑去做一些对自己和世界都更有意义的事情,否则人生的格局就太小了。人要是真.
原创
21阅读
0评论
0点赞
发布博客于 2 月前

NumPy基础及取值操作(一)

@R星校长怎样安装NumPy本地想要安装NumPy其实非常简单,进入命令行,输入pip install numpy即可。什么是ndarray对象NumPy为什么能够受到各个数据科学从业人员的青睐与追捧,其实很大程度上是因为NumPy在向量计算方面做了很多优化,接口也非常友好(总之就是用起来很爽)。而这些其实都是在围绕着NumPy的一个核心数据结构ndarray。ndarray的全称是N-Dimension Arrary,字面意义上其实已经表明了一个ndarray对象就是一个N维数组。但要注意的是.
原创
166阅读
0评论
0点赞
发布博客于 2 月前

SQL Server 高级查询-COUNT()(二)

@R星校长返回内容(行)的个数COUNT() 函数的作用就像它的函数名一样能让大家一目了然,没错,它就是用来计数的。COUNT() 函数有两种使用方法:使用 COUNT(*) 能对整张表的内容(行)进行计数,不管内容(行)是有值还是空值。使用 COUNT(字段) 能对某一字段的内容(行)进行计数,但是会忽略 NULL 值。语法规则为:1. SELECT COUNT(*) FROM 表名 2. SELECT COUNT(字段名) FROM 表名 举个例子我们想从表.
原创
95阅读
0评论
0点赞
发布博客于 2 月前

2020-12-05星期六 (本周复盘)

@R星校长这一周先做一个复盘,从周一见客户开始,我做对的地方,我准时且提前到了约定地点,给人一种靠谱的感觉,这一次没有发生任何意外情况。我约定时间是9:40门口见,我9.07就到达了门口提前了近30分钟,这三十分钟我也没闲着,拿着笔记本记录自己今日要注意的事项,首要的一点就是少说话,多听多看,先学和我组队来的同事的做法,自己仔细复盘。这周让我觉得压力很大的事情:就是还没有学会做项目,开局非常困难,谈好的这个项目第二天,礼拜二,就交到我的手上,自己对于工作上碰到的问题没有及时去问同事。导致周二,周三,.
原创
34阅读
0评论
0点赞
发布博客于 2 月前

SQL Server 高级查询-AVG()(一)

@R星校长第1关:AVG()函数的使用返回某一字段的平均值AVG()函数通过计算某字段(列)内容(行)的个数和它们的数值之和来返回某一字段的平均值。语法规则为:SELECT AVG(column_name) FROM table_name 举个例子我们想从表 Customers中,检索到所有消费者消费金额的平均值。表 Customers的内容如下表所示:输入:SELECT AVG(cost) as avg_costFROM Customers输出:avg_cos.
原创
82阅读
0评论
0点赞
发布博客于 2 月前

SQL语句的执行顺序是什么样的?(把之前的所有语法集中到一个句子中)

@R星校长SELECT DISTINCT column, AGG_FUNC(column_or_expression), …FROM mytable JOIN another_table ON mytable.column = another_table.column WHERE constraint_expression GROUP BY column HAVING constraint_expression ORDER BY column ASC.
原创
81阅读
0评论
0点赞
发布博客于 2 月前

SQL Server 通配符[]查询(三)

@R星校长第3关:通配符[]的使用如何使用通配符 [] 模糊匹配数据内容通配符[]是个中括号,一看就知道里面是应该放点什么内容,放点什么呢?它又有什么作用呢?[]用于将一组字符囊括在内,这一组字符之间是或的关系,而通配符[]出现的位置也严格匹配于括号中出现的字符在整个字符串中的位置。是不是有点抽象?一会儿我们举个例子你就明白了,先来看看语法吧。语法规则为:SELECT 字段名 FROM 表名 WHERE 字段名 LIKE '[数据]' 举个例子我们想从表Customers中.
原创
21阅读
0评论
0点赞
发布博客于 2 月前

SQL Server 通配符_查询(二)

@R星校长第2关:通配符_的使用如何使用通配符_模糊匹配数据内容。另一个很实用的通配符是下划线 _ ,它的使用规则与 % 类似,唯一与 %不同的是:% 能匹配多个字符,而_ 只能匹配一个字符!语法规则为:SELECT 字段名 FROM 表名 WHERE 字段名 LIKE '数据和_的组合' 举个例子我们想从表 Customers 中检索到 cust_id 尾数只有个位数的消费者的所有数据。表 Customers 的内容如下图所示。大家可以看到,我们只有一个 cust_id 尾数.
原创
36阅读
0评论
1点赞
发布博客于 2 月前

SQL Server 通配符%查询(一)

@R星校长第1关:通配符%的使用如何使用通配符 % 模糊匹配数据内容。在所有通配符中,最常用的通配符要数 %了。使用了%就意味着,你能从现有的数据中匹配到任意个数的字符(注意,可以是不止一个字符哟)。语法规则为: SELECT 字段名 FROM 表名 WHERE 字段名 LIKE '数据%'; 举个例子我们想从表 Customers 中检索到所有叫 Alice 的消费者的所有数据。表 Customers 的内容如下图所示。大家可以看到,我们有 Alice Nicholas 和 .
原创
58阅读
0评论
0点赞
发布博客于 3 月前

SQL Server 基本SELECT查询(三)

@R星校长第3关:使用WHERE语句进行检索如何使用WHERE语句和操作符来选择符合条件的数据?在实际情况中,我们不仅需要对某字段的全部数据进行检索,更多的是需要对符合我们需求的数据进行检索。SQL语言的发明者当然想到了这些,为我们提供了更多的方法来检索你想要的数据。WHERE语句就是这样一种存在,只要把你的需求正确地放在WHERE 后边,它就能帮你检索到你想要的内容。下表为与 WHERE语句搭配的操作符列表:使用WHERE语句检索单范围数据如果你想在房屋中介数据库中,寻找小于100万的房.
原创
30阅读
0评论
0点赞
发布博客于 3 月前

SQL Server 基本SELECT查询(二)

@R星校长第2关:带限制条件的查询和表达式查询查询数据表中的指定字段的数据;查询数据表中指定字段运算后的数据。相关知识为了完成本关任务,你需要掌握:1.使用限制关键字查询数据表中的指定字段的内容,2.使用运算符查询数据表中指定字段运算后的内容。带限制条件的查询SELECT语句可以帮你返回所有匹配的内容,甚至整张表的内容。但是如果你仅仅是想要第一行的数据或者前几行的数据怎么办呢?好消息是我们可以通过限制条件来查询,不过限制条件的语法在各个数据库中的语法是不同的。在 SQL Server 中.
原创
9阅读
0评论
0点赞
发布博客于 3 月前

SQL Server 基本SELECT查询(一)

@R星校长第1关:基本SELECT查询用 SELECT 语句检索数据表中指定字段的数据;用 SELECT 语句检索数据表中所有字段的数据。相关知识为了完成本关任务,你需要掌握:1.如何获取数据表中指定字段的数据,2.如何获取数据表中的所有数据若想使用 SELECT 语句来检索数据表中的数据,你至少得弄清楚两个重要的信息:(1) 你想检索的是什么?(2) 你想检索的内容它在什么地方?检索数据表中一个字段的内容我们将从最简单的SELECT语句开始学习语法规则为: SELECT 字段名 .
原创
33阅读
0评论
0点赞
发布博客于 3 月前

爬虫实战——周刊文章爬取(二)

@R星校长第2关:获取文章内容任务描述本关任务:编写一个爬虫,请求上一关获取的每个url,获取每篇文章的标题、作者、正文以及文章中全部图片的完整url。相关知识为了完成本关任务,你需要掌握xpath的基本使用。选取节点:路径表达式结果bookstore选取 bookstore 元素的所有子节点/bookstore选取根元素 bookstore。注:假如路径起始于正斜杠( / ),则此路径始终代表到某元素的绝对路径!bookstore/book选取属于 b.
原创
40阅读
0评论
2点赞
发布博客于 3 月前

爬虫实战——求是网周刊文章爬取(一)and 爬虫基本原理

@R星校长第1关:获取新闻url任务描述本关任务:编写一个爬虫,并使用正则表达式获取求是周刊2019年第一期的所有文章的url。详情请查看《求是》2019年第1期 。相关知识获取每个新闻的url有以下几个步骤:首先获取2019年第1期页面的源码,需要解决部分反爬机制;找到目标url所在位置,观察其特征;编写正则表达式,获取目标数据。编程要求使用正则表达式获取求是周刊2019年第一期的所有文章的url,返回的是一个包含所有url的列表。预期输出:http://www.qstheo.
原创
146阅读
0评论
2点赞
发布博客于 3 月前

程序的输入与输出,深刻理解printf和scanf

@R星校长int main(){ int math = 96;//声明了一个名为math的整型变量,在声明时,就为它赋值为96 int english,sport;//使用一条语句同时声明了两个变量,english和sport english =87;//将english赋值为87 sport = 80;//sport赋值为80 //声明整型变量sum, 并计算三个成绩的和,将结果赋值sum int sum = math + english + sport; printif("sum =.
原创
23阅读
0评论
1点赞
发布博客于 3 月前

网页抓取及信息提取(三)

@R星校长第3关:网页数据分析任务描述下图是2016年国防科技大学分数线的网页,在浏览器中我们可以看到,各省的最高分、最低分、平均分都整齐地排列自在表格中。一个网页的源代码时常有成百上千行,其中很多代码都是为了布局页面样式服务的,而我们时常关心的是网页上的数据,而并不关心样式代码。所以如何从冗长的网页源代码中提取我们关心的数据,是这一关我们将要一起学习和体验的内容。相关知识课程视频 1《网页数据 - 使用正则表达式提取数据》上面的课程视频1介绍了如何使用正则表达式提取网页数据,下面通过文.
原创
177阅读
0评论
3点赞
发布博客于 3 月前

FineReport 10.0 基础入门(二)

@R星校长
原创
27阅读
0评论
0点赞
发布博客于 3 月前

初到上海的第一个月,社会对年轻人(自己)的鞭挞

说一些编程以外的事,初来上海,对上海的大没有一个完整的认知,直到在上海待了快一个月,车费消耗也将近快一千了,跨区办了几件事后,对上海的大开始有时间成本的概念了,我想记录一下如今面对过的一些不顺利的事,以今天为界,希望明天错误不要重范,人生多些福报。
原创
140阅读
7评论
0点赞
发布博客于 3 月前

网页抓取及信息提取(二)

@R星校长第2关:提取子链接上一关我们学习了如何访问给定的网页并保存信息到本地,本关我们要从上一关访问的网页中提取出嵌套的url地址,即实现子链接的提取。相关知识课程视频《网页数据 - 获取url子链接》下面通过文字进一步详细描述本关子链接提取的实现方法。网页信息中的子链接一个网站常常是一个主页中包含许多子链接,例如:点击上图国防科技大学本科招生信息网的第一行“国防科技大学2016年录取分数统计”,就能跳转到其子网页:子网页的网址为:http://www.gotonudt.cn/s.
原创
102阅读
0评论
3点赞
发布博客于 3 月前

帆软认证报表工程师(FCRA)考试考题(我的错题记录)

@R星校长帆软认证报表工程师(FCRA)考试判断题共23题(只记录自己的错题)在报表设计时,报表支持单元格添加斜线,且方向必须为从左上角至右下角发散。(错)全局参数保存在工程下面的config.xml中(对)移动端支持通过插件来改变APP目录或者主题的样式(对)远程设计禁止跨版本,比如,8设计器不能远程设计9和10的工程(对)移动端微信集成不支持微信公众号(对)设计器远程链接服务器时,服务器菜单内没有插件管理选项(对)帆软不支持集成多个钉钉应用(错)单选题共22题(只记录自己的错题.
原创
413阅读
0评论
0点赞
发布博客于 3 月前

网页抓取及信息提取(一)

@R星校长第1关:利用URL获取超文本文件并保存至本地当我们想要在浏览器中打开一个网页时,需要在浏览器的地址栏中输入该网页的url,例如在地址栏中输入百度搜索网站的首页url:https://www.baidu.com/ ,点击确认后,浏览器将向服务器发出一个对该网的请求;服务器端收到请求后,会返回该网页的超文本文件,浏览器收到服务器端发来的网页超文本文件后,对其进行解析,然后在窗口中显示该超文本文件对应的网页。如下图所示。网页对应的超文本文件如下图所示。本关我们将使用Python程序,实现通.
原创
282阅读
0评论
1点赞
发布博客于 3 月前

FineReport 10.0 基础入门+常用快捷键

“数据可视化工具,可爱者甚番。分析师独爱R,自Python以来,世人盛爱matplotlib。余独爱BI之出分析而不拖沓,做可视化还算酷炫......”。
原创
62阅读
0评论
0点赞
发布博客于 3 月前

Python 函数正则表达式-re.finditer() re.split() re.sub() subn()(三)

@R星校长第3关:re 模块中常用的功能函数(二)本关需要掌握:finditer()函数;split()函数;sub()函数;subn()函数。以下实例均可在命令行窗口中练习。finditer()函数搜索字符串,返回一个Match对象的迭代器(包含匹配的开始和结束的位置,如下图中的i所示)。找到正则匹配的所有子串,把它们作为一个迭代器返回。格式:re.finditer(pattern, string, flags=0);itext = re.finditer(r'\d+','12.
原创
25阅读
0评论
0点赞
发布博客于 3 月前

Python自动化办公,深度优先搜索文件夹并移动全部doc文件(深度优先算法)以及(文件、文件夹的移动、复制、删除、重命名)

Python自动化办公,深度优先搜索文件夹并移动全部doc文件(深度优先算法)以及(文件、文件夹的移动、复制、删除、重命名)
原创
63阅读
0评论
0点赞
发布博客于 3 月前

Python 函数正则表达式-re.compile() re.match() re.search()(二)

@R星校长第1关:正则表达式基础知识
原创
21阅读
0评论
0点赞
发布博客于 3 月前

Python re.findall() 函数正则表达式(一)

@R星校长第1关:正则表达式基础知识正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,来筛选出符合这个规则的内容。可以简单理解为:一个强大的搜索工具中,正则表达式就是你要搜索内容的条件表达式。为了完成本关任务,你需要掌握:1.正则模块函数re.findall(),2.各种正则表达式元字符的含义。以下实例均可在命令行窗口中练习。re.findall()函数作用:遍历整个字符串,可以获取其中所有匹配的字符串,返回一个列表。一般.
原创
172阅读
0评论
0点赞
发布博客于 3 月前

成年人的自由,从学会拒绝开始

一位读者问我:润总,我总是不好意思(也不敢)拒绝别人,常常被迫扭曲自己,做一些不情愿的事。怎么办?怎么才能得体地拒绝别人呢?今天我想告诉你一个拒绝别人的心法:坚定而柔软。— 1 —什么叫做坚定而柔软?坚定,代表不左右动摇,不模棱两可。但是坚定,并不意味着一定要强硬。坚定,可以是非常柔软的。简单说就是:态度要坚定,但是身段要柔软。很多人觉得,直接坚定地拒绝别人,会伤害对方,或者得罪对方。其实,在大部分情况下,并不会。模棱两可,含含糊糊,不明确表态,才会真正伤害和得罪对方。我举个
转载
75阅读
0评论
0点赞
发布博客于 3 月前

鲲鹏微认证的 一些知识点

EIP支持与ECS、BMS、NAT网关、ELB、虚IP灵活的绑定与解绑,带宽支持灵活调整,应对各种业务变化通用计算增强型KC1搭载自研华为鲲鹏920处理器及25GE智能高速网卡,提供强劲鲲鹏算力和高性能网络,更好满足政府、互联网等各类企业对云上业务高性价比、安全可靠等诉求。适用场景:大数据HPC(渲染、基因)互联网应用政企应用建站电商等中长尾场景Redis迁移失败是什么原因?在进行数据迁移时在进行数据迁移时,如果Redis实例发生了主备倒换,可能会导致迁移失败。可联系技术支持,将主备倒换关闭,待迁移成功后,
原创
192阅读
0评论
0点赞
发布博客于 3 月前

像高手一样使用你的计算机

@R星校长第6关:Python数据库编程之删除数据这一讲咱们说说如何高效地使用计算机。注意是“计算机”,是那种传统的、有实体键盘的、真正的计算机,是生产力工具,而不是手机、平板之类的娱乐和社交设备。现在有些人说iPad也是生产力工具,我对此表示嗤之以鼻。挽弓当挽强用箭当用长,你需要趁手的兵器,你需要一台真正的计算机。不管你的工作性质是什么,我推荐使用Mac电脑、有线机械键盘和大显示器。不过硬件和操作系统都不是关键问题。我见过长期使用Linux操作系统却只会拿个鼠标点来点去的人,也见过把 Window.
原创
192阅读
0评论
0点赞
发布博客于 3 月前

Python与MySQL编程基础(六)

@R星校长第6关:Python数据库编程之删除数据在现在的软件 web 开发中,越来越离不开数据库的支持,MySQL 是现在最流行的关系型数据库管理系统(RDBMS - Relational Database Management System),在 WEB 开发中,MySQL 是最好的 RDBMS 应用软件之一。在本教程中,会让大家快速掌握 python 使用 MySQL 的相关知识,并轻松使用 MySQL 数据库。如何使用 pymysql 连接指定数据库并且删除符合条件的记录?以下是一个样例代.
原创
23阅读
0评论
1点赞
发布博客于 3 月前