- 博客(94)
- 收藏
- 关注
原创 我是目录(Markdown)
文章目录Python(14)大数据(29)数据分析/数据挖掘/机器学习(6)爬虫(6)大杂烩(11)Python(14)Python基础list和tuple条件判断和循环dict和set函数高级特性函数式编程模块面向对象编程Object Oriented Programming错误、调试和测试IO编程Windows下Eclipse+PyDev环境配置Series和D...
2020-03-08 14:58:07 413
原创 Selenium 操作内部滚动条的方法
在爬取网页数据的过程中,有时候需要操作网页中的滚动条来获取完整的数据。Selenium 可以操作页面中没有完全显示的内容,当页面中有内容在当前可见范围之外时,可以使用滚动操作将其滚动到视图中。在浏览器中,滚动条有窗口滚动条和内部滚动条两种,窗口滚动条是指浏览器窗口右侧或底部的滚动条,通过拖动滚动条,可以使整个窗口中的内容上下或左右移动,用于滚动整个页面的内容,可以通过鼠标滚轮、键盘上下左右箭头、滚动条本身的拖动等方式进行操作。内部滚动条,在网页内部特定区域中垂直或水平移动,用于滚动该区域内的内容。
2024-08-05 08:58:51 853
原创 从 WordCount 执行流程理解 Spark 中 application 、 job 、 stage 、 task 的关系
从 WordCount 执行流程理解 Spark 中 application 、 job 、 stage 、 task 的关系
2024-04-26 15:21:13 643 4
原创 统计学习方法笔记01_泛化误差上界
文章目录Hoeffding 不等式期望损失与经验损失泛化误差上界证明[^1]Hoeffding 不等式第 2 版,设 X1,X2,,⋯ ,XNX_1,X_2,,\cdots,X_NX1,X2,,⋯,XN 是独立随机变量,且 Xi∈[ai,bi],i=1,2,⋯ ,NX_{i} \in [a_i,b_i],i=1,2,\cdots,NXi∈[ai,bi],i=1,2,⋯,N;Xˉ\bar{X}Xˉ 是 X1,X2,,⋯ ,XNX_1,X_2,,\cdots,X_NX1,X2,,⋯,XN
2020-12-08 15:50:10 405
原创 用 pyinstaller 生成传参数的可执行文件
文章目录安装 pyinstallermain 函数处理将 py 文件打包为可执行文件安装 pyinstaller直接用 pip install pyinstaller 安装即可,安装时遇到如下错误: module 'setuptools.build_meta' has no attribute '__legacy__',采用 pip install --no-use-pep517 pyinstaller 解决,参考 https://github.com/pypa/setuptools/issues/16
2020-12-03 23:46:38 957
原创 双手不离键盘,在命令行快速移动和删除字符
文章目录1.1 移动光标1.2 编辑命令命令行界面(Command-Line Interface),简称 CLI,它通常不支持鼠标,用户通过键盘输入指令,计算机收到指令后,予以执行,Unix-like 系统常用的 CLI 程序如 sh / bash / csh / zsh 等,在命令行中,我们经常用方向键完成光标移动操作,用 Backspace / Delete 完成字符删除操作,有没有什么方法...
2020-03-30 00:33:59 2307
原创 双手不离键盘,Vim和Vimium扩展
文章目录1.1 Vim1.1.1 各种插入模式1.1.2 在行方向上移动光标1.1.3 在竖直方向上移动光标1.2 Chrome 浏览器插件 Vimium1.2.1 页面滚动1.2.2 打开新页面1.2.3 打开当前页面上任意一个链接1.2.4 显示当前所有的标签页并快速切换为了练就双手不离键盘的”神功“,在上一篇文章双手不离键盘,VS Code 的一些快捷键和骚操作介绍了 VS Code 提升...
2020-03-28 20:16:36 451
原创 双手不离键盘,VS Code 的一些快捷键和骚操作
文章目录1.1 光标移动1.2 文本选择1.3 文本删除1.4 代码行编辑1.5 与编程语言相关的命令1.6 总结为了练就双手不离键盘的”神功“,对于常用工具,熟悉一些基本的操作快捷键是非常有必要的。接下来准备挖个坑,分享一些提升效率的工具。也欢迎你留言分享自己日常工作中提升效率的一些工具和最佳实践。由于办公软件兼容性等原因,我在 Mac 和 Windows 两个系统间切换工作,所以选择工具通...
2020-03-27 23:44:37 488
原创 搭建一个完整的 Kubernetes 集群
文章目录1.1 准备工作1.2 安装 kubeadm 和 Docker1.3 部署 Kubernetes 的 Master 节点1.4 部署网络插件1.5 部署 Kubernetes 的 Worker 节点1.6 通过 Taint/Toleration 调整 Master 执行 Pod 的策略1.7 部署 Dashboard 可视化插件1.7.1 为 Dashboard 签发证书及密钥1.7.2 ...
2020-03-23 00:02:57 512
原创 mmdetection 用自定义 coco 数据集做目标检测
文章目录1.1 mmdetction 安装1.1.1 系统环境需求1.1.2 安装 mmdetection1.2 训练自定义数据集 CatDog1.2.1 准备数据集1.2.2 修改 faster_rcnn 模型配置1.2.3 训练模型1.2.4 测试图片1.2.4.1 测试单张图片1.2.4.2 测试多张图片1.1 mmdetction 安装1.1.1 系统环境需求参考 mmdetecti...
2020-03-22 22:30:01 1799
原创 编辑和排版公众号文章的 Markdown 解决方案
文章目录痛点分析排版工具Markdown HereMd2All可能吧公众号排版器Markdown 插入图片有道云笔记 Markdown 插入图片GitHub 搭建图床这篇文章介绍的思路和方法,不仅适用于公众号的编辑和排版,对于其他支持 Markdown 的博客网站,如 csdn、博客园、知乎、简书等,以及用 Github 自建的博客,也可食用。痛点分析自从 2017 年的文章是时候使用 Ma...
2020-03-09 22:11:20 1075
原创 Python学习笔记08_模块
模块在Python中,一个.py文件就成为一个模块(Module)。为了避免模块名冲突,Python又引入了按目录来组织模块的方法,称为包(Package)。每一个包目录下面都会有一个__init__.py的文件,这个文件时必须存在的,否则,Python就把这个目录当成普通目录,而不是一个包。__init__.py可以说空文件,也可以有Python代码,因为__init__.py本身就是一个模
2020-03-08 15:12:57 241
原创 Python学习笔记07_函数式编程
高阶函数Higher-order function变量可以指向函数,即:函数本身也可以赋值给变量。函数名也是变量。把函数作为参数传入,这样的函数称为高阶函数。map/reducemap()函数,接收两个参数,一个是函数,一个是Iterable,map将传入的函数依次作用到序列的每个元素,并把结果作为新的Iterator返回。<<< def f(x): return x *
2020-03-08 15:12:46 364
原创 Scala的Class、Object、Trait
开发环境 ideaIU或ideaIC。idea的scala插件,File-Setting-Plugins,搜索scala在线安装,或下载后离线安装Install plugin from disk。加载scala的包,Project Structure,Global Libraries,添加scala-sdk。基础 scala中,break和continue的实现, 1package com.pad...
2020-03-08 15:12:29 177
原创 Spark实战(4)_Master原理剖析与源码分析
主备切换机制原理剖析Master可以配置两个,Spark原生的standalone模式支持Master主备切换。Spark Master主备切换可以基于两种机制,一种是基于文件系统的,一种是基于ZooKeeper的,基于文件系统的主备切换机制,需要在Active Master挂掉之后,手动去切换到Standby Master上。基于ZooKeeper的主备切换机制,可以实现自动切换Master。M...
2020-03-08 15:12:06 201
原创 Spark实战(3)_SparkContext原理剖析与源码分析
TaskScheduler的初始化机制TaskScheduler,如何注册Application,executor如何反向注册?TaskScheduler的初始化机制createTaskScheduler(),内部会创建三个东西。一是TaskSchedulerImpl,它其实就是我们所说的TaskScheduler。二是SparkDeploySchedulerBackend,它在底层会负责接收Ta...
2020-03-08 15:11:46 112
原创 Scala学习笔记05_面向对象编程之类和对象
定义一个简单的类 1// 定义类,包含field及方法 2scala> :paste 3// Entering paste mode (ctrl-D to finish) 4class HelloWorld { 5 private var name = "leo" 6 def sayHello() {print("Hello, " + name)} 7 def getNam...
2020-03-08 15:11:29 266
原创 Scala学习笔记04_Map与Tuple
创建Map 1// 创建一个不可变的Map 2scala> val ages = Map("Leo" -> 30, "Jen" -> 25, "Jack" -> 23) 3scala> val ages = Map("Leo" -> 30, "Jen" -> 25, "Jack" -&am
2020-03-08 15:11:12 203
原创 Scala学习笔记03_数组
ArrayArray,长度不可改变的数组,Scala数组的底层实际上是Java数组,如字符串数组在底层就是Java的String[],整数数组在底层就是Java的Int[]。 1// 数组初始化后,长度就固定下来了,而且元素全部根据其类型初始化 2scala> val a = new Array[Int](10) 3a: Array[Int] = Array(0, 0, 0, 0, 0,...
2020-03-08 15:10:57 154
原创 Scala学习笔记02_函数入门
函数入门函数的定义与调用,在Scala中定义函数时,需要定义函数的函数名、参数、函数体。 1scala> :paste 2// Entering paste mode (ctrl-D to finish) 3def sayHello(name:String, age:Int) = { 4 if(age >= 18) { 5 printf("Hi, %s, you are...
2020-03-08 15:10:33 157
原创 Scala学习笔记01_条件控制与循环
if表达式if表达式的定义,if表达式是有值的,就是if或else中最后一行语句返回的值。1scala> val age = 302age: Int = 303scala> val isAdult = if(age > 18) 1 else 04isAdult: Int = 1if表达式的类型推断,if和else子句的值类型可能不同,Scala会自动进行推断,取两个类型的...
2020-03-08 15:10:16 270
原创 分布式消息队列Kafka学习笔记
Kafka概述 a distributed streaming platformKafka架构和核心概念producer, 生产者,生产馒头。consumer, 消费者,吃馒头。broker, 篮子。topic, 主题,给馒头带一个标签,topica的馒头是给你吃的,topicb的馒头是给你弟弟吃。Zookeeper集群部署安装包解压,1tar -xzvf zookeeper-3.4.5.tar...
2020-03-08 15:09:57 234
原创 分布式日志收集框架Flume学习笔记
业务现状分析我们有很多servers和systems,比如network device、operating system、web server、Application,他们会产生日志和其他数据,如何使用这些数据呢?可以把源系统的日志数据移到分布式的存储和计算框架上处理,如何解决?shell cp hadoop集群的机器上,hadoop fs -put …,有一系列问题,容错、负载均衡、高延时、压缩...
2020-03-08 15:09:42 264
原创 Flume+Kafka+Storm模拟应用日志的实时处理
模拟应用需求采集订单系统应用打印的日志文件。日志文件使用log4j生成,滚动生成。使用tail -F xxx.log来监控文件名称,理解tail -f和tail -F的区别。将采集的日志文件保存到Kafka中。(source)输入:tail -F xxx.log(channel)存储:内存(sink)输出:Kafkaconfig样例,a1.source = s1a1.channel = c1a...
2020-03-08 15:09:25 241
原创 Zookeeper集群部署及分布式应用系统服务器上下线动态感知
Zookeeper简介Zookeeper是一个分布式协调服务,为用户的分布式应用程序提供协调服务。为别的分布式程序服务本身是一个分布式程序(只要有半数以上节点存活,zk就能正常服务)。通过底层的两个功能提供各种服务,这两个功能分别是:管理(存储、读取)用户程序提交的数据,为用户程序提供数据节点监听服务。Zookeeper集群部署上传安装包rpm -qa | grep lrzszyum insta
2020-03-08 15:09:06 281
原创 Windows下Eclipse+PyDev环境配置
用了一段时间的PyCharm,内存占用有点大,略卡,尝试了一下Eclipse+PyDev,这篇文章是在使用过程中个性化配置的一些总结。PyDev的版本安装完pydev插件后,有时我们会发现在Window->Preferences下没有pydev项,这是因为我们安装了与Eclipse/JDK不匹配的插件版本。Eclipse、JDK、PyDev版本的对应关系如下: - Eclipse 4.5, Jav
2020-03-08 15:08:48 267
原创 Python学习笔记11_IO编程
Input和Output,Input Stream就是数据从外面(磁盘、网络)流进内存,Output Stream就是数据从内存流到外面去。同步和异步,区别在于是否等待IO执行的结果,比如要把100M的数据写入磁盘,CPU输出100M的数据只需要0.01秒,可磁盘接收这100M数据可能需要10秒。同步IO是CPU等待,即程序暂停执行后续代码,等100M的数据在10秒后写入磁盘,再往下执行,异步IO是
2020-03-08 15:08:29 270
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人