duke的博客

使用python/java/scala等语言来处理关于web、爬虫、机器学习、数据分析、大数据的学习和总结。...

在markdown中写数学公式

插入公式规则 类型 语法 效果 行内公式 $x=2$ x=2x=2x=2 行间公式 (居中) $$x=2$$ x=2x=2x=2 下面所有语法都是放在$$之间使用的。 字母修饰 上下标 上标:^ 下标:_ 展示 语法 Cn3C_n^3Cn3​ C_n^3 ...

2019-04-11 15:56:24

阅读数 114

评论数 0

全面深入了解python(二)

全面深入了解python(二) 1. 序列构成的数组 1.1 内置序列类型概览 python标准库用C实现了丰富的序列类型: 容器序列: list、tuple和collections.deque这些序列能存放不同类型的数据。 扁平序列: str、bytes、bytearray、memoryview...

2019-02-20 20:26:01

阅读数 135

评论数 0

Centos7安装配置mysql5.6详细教程

Centos7安装配置mysql5.6详细教程 1. 删除Centos7自带的数据库 打开终端: [root@duke ~]代表当前目录为~ [root@duke mysql]代表当前目录为mysql 查询自带的数据库 [root@duke ~]# rpm -qa|grep mariadb ma...

2019-02-20 11:48:16

阅读数 101

评论数 0

Flask从入门到做出一个博客的大型教程(一)

Flask从入门到做出一个博客的大型教程(一) 本项目全部在虚拟环境中运行,因此请参照前面的文章,链接为https://blog.csdn.net/u014793102/article/details/80302975 建立虚拟环境后,再接着完成本教程的学习。 0 开始之前 网上看了...

2018-05-19 11:29:24

阅读数 36682

评论数 14

短文本相似度匹配

短文本相似度匹配 服务器环境: Centos 7.x python环境: 3.6.X 问题描述: 1.项目中遇到这样一个问题:公司的正式名称和工作人员手动录入的公司名称匹配问题。 例如: 杭州艾索电子科技有限公司和杭州艾索电子公司 豪世华邦(和平店)和豪世华邦 浙江维尔科技股份有限公司和浙江维尔科...

2019-04-16 15:42:28

阅读数 159

评论数 0

在centos上部署机器学习环境遇到的坑

在centos上部署机器学习环境遇到的坑 服务器环境: Centos 7.x python环境: 3.6.X 问题描述: 1.在图片识别类的机器学习应用里,常用到cv2这个模块。服务器线上部署时,提示一系列的错误: ImportError: libSM.so.6: cannot open shar...

2019-04-15 17:08:31

阅读数 74

评论数 0

机器学习(三) 线性代数-矩阵

机器学习(三) 线性代数-矩阵 矩阵 矩阵是一个二维的数据集合。我们将矩阵表示为列表的列表,每个内部列表的大小都一样,表示矩阵的一行。如果A是一个矩阵,那么A[i][j]就表示第i行第j列的元素。 按照数学表达的惯例,我们通常用大写字母表示矩阵。例: A = [[1,2,3], # A有2行3列...

2019-04-12 15:35:20

阅读数 58

评论数 0

机器学习(二) 线性代数-向量

机器学习(二) 线性代数-向量 对于机器学习来说,数学很重要,即使你已经把大学阶段的数学知识都忘完了,还是要从记忆里拾取一些。 向量 数学概念里,向量是指具有大小和方向的量。具体的说向量可以相加生成新的向量,可以乘以标量(数字),也可以生成新的向量的对象。 比如说,一个班级里所有学生的身高、体重...

2019-04-11 16:13:54

阅读数 57

评论数 0

机器学习(一) 数据可视化

机器学习(一) 数据可视化 前言: 1.开发环境:Anaconda3-5.2.0,点击这里下载所有版本 2.语言:python 机器学习是一个很大的概念,我会的也是其中的沧海一粟,我从基础的开始和大家一起分享一下学习心得。 为什么不先说别的,要先说数据可视化? 从日常工作中,机器学习的成果怎么展...

2019-04-09 21:23:43

阅读数 242

评论数 0

Jupyter Notebook常用快捷键

Jupyter Notebook常用快捷键 Jupyter Notebook 有两种键盘输入模式。编辑模式,允许你往单元中键入代码或文本;这时的单元框线是绿色的。命令模式,键盘输入运行程序命令;这时的单元框线是灰色。 命令模式 (Esc 开启) Enter : 转入编辑模式 Shift-Ente...

2019-03-19 14:08:28

阅读数 27

评论数 0

Java命名规范

Java命名规范 1. 项目名 全部小写。如:bigdata、startdt 2. 包名 全部小写。如:com.startdt.bigdata 3. 类名、接口名 首字母大写,多个单词组成时,采用驼峰法,每个单词首字母大写。 public class MyArray {} 4. 方法名 首字母小...

2019-03-06 19:59:52

阅读数 17

评论数 0

全面深入了解python(五)

全面深入了解python(五) 1. 字典 dict类型不但在各种在各种程序里广泛使用,也是python语言的基石。模块的命名空间、实例的属性和函数的关键字参数中都可以看到字典的身影。 字典类型性能出众的原因是使用了散列表。 1.1 泛映射类型 collections.abc模块中有Mapping...

2019-03-05 19:26:29

阅读数 126

评论数 0

全面深入了解python(四)

全面深入了解python(四) 1. 用bisect来管理已排序的序列 bisect模块包含两个主要函数,bisect和insort,两个函数都利用二分查找算法在有序序列中查找或插入元素。 1.1 用bisect来搜索 bisect(haystack, needle),其中haystack必须是一...

2019-02-28 17:17:14

阅读数 54

评论数 0

全面深入了解python(三)

全面深入了解python(三) 1. 切片 在python里,列表、元组和字符串这类序列类型都支持切片操作。 1.1 为什么切片和区间会忽略最后一个元素 在切片和区间不包含最后一个元素是python的风格,这个习惯符合python、c和其他语言里以0作为起始下标的传统。 当只有最后一个位置信息时...

2019-02-27 20:10:49

阅读数 69

评论数 0

yum出现Error downloading packages错误

yum出现Error downloading packages错误 错误表现方式: yum可以list,可以clean cache,但是无法安装,错误提示: Downloading packages: Error downloading packages: libevent-devel-2...

2019-02-22 11:57:30

阅读数 975

评论数 0

全面深入了解python(一)

全面深入了解python(一) 写在开始前,此教程不是基础教程,在看之前你需要有一定的python基础,不然你可能无法理解教程到底教了哪些东西。 环境:python版本是3.6.5(>=3.4即可) 1. Python数据模型 数据模型其实是对Python框架的描述,...

2019-02-11 14:44:44

阅读数 188

评论数 0

java 爬虫大型教程(四)

java 爬虫大型教程(四) 基本爬虫进阶(二) 1. 爬虫的监控 你可以利用爬虫的监控功能查看爬虫的执行情况——已经下载了多少页面、还有多少页面、启动了多少线程等信息。该功能通过JMX实现,你可以使用Jconsole等JMX工具查看本地或者远程的爬虫信息。 如果你完全不会JMX也没关系,因为它的...

2019-01-29 20:15:53

阅读数 153

评论数 0

java 爬虫大型教程(三)

java 爬虫大型教程(三) 基本爬虫进阶(一) 1. 使用Pipeline保存结果 好了,爬虫编写完成,现在我们可能还有一个问题:我如果想把抓取的结果保存下来,要怎么做呢?WebMagic用于保存结果的组件叫做Pipeline。例如我们通过“控制台输出结果”这件事也是通过一个内置的Pipelin...

2019-01-29 14:09:59

阅读数 210

评论数 0

java 爬虫大型教程(二)

java 爬虫大型教程(二) 编写基本的爬虫 1. 实现PageProcessor 这部分我们直接通过CdnRepoPageProcessor这个例子来介绍PageProcessor的编写方式。PageProcessor定制分为三个部分,分别是爬虫的配置、页面元素的抽取和链接的发现。 import...

2019-01-28 17:35:09

阅读数 179

评论数 0

java 爬虫大型教程(一)

java 爬虫大型教程(一) 写在开始前,既然是大型教程,那就从最初始的环境变量开始搭建说起。 电脑环境:我的电脑是macbook pro,因此系统环境变量配置是和Windows不一样的,如果你的电脑是Windows系统,可以百度下相关环境变量配置。 爬虫框架:使用的是webmagic,这是国内不...

2019-01-24 21:48:35

阅读数 324

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭