自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

duke的博客

使用python/java/scala等语言来处理关于web、爬虫、机器学习、数据分析、大数据的学习和总结。...

原创 python数据分析-NumPy (二)

python数据分析-NumPy (二) 1. NumPy数组基础 python中的数据操作几乎等同于NumPy数组操作,另外一个重要的工具包pandas也是构建在Numpy数组的基础之上的。 1.1 NumPy数组的属性 首先定义三个随机的数组:一个一维数组、二维数组和三维数组。 In[1]: ...

2019-09-06 14:28:52 113 0

原创 python数据分析-NumPy (一)

python数据分析-NumPy (一) 前言: 1.开发环境:Anaconda3-5.2.0,点击这里下载所有版本 2.语言:python 3.如果对jupyter notebook的快捷键不知道如何使用,点击这里 1. NumPy入门 1.1 python中的数据类型 首先要了解一点,pyth...

2019-09-04 17:16:24 183 0

原创 Flask从入门到做出一个博客的大型教程(一)

Flask从入门到做出一个博客的大型教程(一) 本项目全部在虚拟环境中运行,因此请参照前面的文章,链接为https://blog.csdn.net/u014793102/article/details/80302975 建立虚拟环境后,再接着完成本教程的学习。 0 开始之前 网上看了...

2018-05-19 11:29:24 72840 20

原创 python计算高德地图距离和面积

python计算高德地图距离和面积 因为项目中经常使用高德的距离和面积计算组件,但是高德并未公布计算逻辑,这就导致项目中数据出问题时不知道该如何去定位。因此花费了1天时间把距离计算和面积计算用python语言整理了出来。 距离计算公式: from math import asin,sqrt,cos...

2020-01-07 10:17:40 406 2

原创 数据仓库

最近可能要转岗数据开发了,先占个坑,熟悉后回来填上。

2019-10-24 22:43:40 89 0

原创 短文本相似度匹配

短文本相似度匹配 服务器环境: Centos 7.x python环境: 3.6.X 问题描述: 1.项目中遇到这样一个问题:公司的正式名称和工作人员手动录入的公司名称匹配问题。 例如: 杭州艾索电子科技有限公司和杭州艾索电子公司 豪世华邦(和平店)和豪世华邦 浙江维尔科技股份有限公司和浙江维尔科...

2019-04-16 15:42:28 2313 1

原创 在centos上部署机器学习环境遇到的坑

在centos上部署机器学习环境遇到的坑 服务器环境: Centos 7.x python环境: 3.6.X 问题描述: 1.在图片识别类的机器学习应用里,常用到cv2这个模块。服务器线上部署时,提示一系列的错误: ImportError: libSM.so.6: cannot open shar...

2019-04-15 17:08:31 363 0

原创 机器学习(三) 线性代数-矩阵

机器学习(三) 线性代数-矩阵 矩阵 矩阵是一个二维的数据集合。我们将矩阵表示为列表的列表,每个内部列表的大小都一样,表示矩阵的一行。如果A是一个矩阵,那么A[i][j]就表示第i行第j列的元素。 按照数学表达的惯例,我们通常用大写字母表示矩阵。例: A = [[1,2,3], # A有2行3列...

2019-04-12 15:35:20 135 0

原创 机器学习(二) 线性代数-向量

机器学习(二) 线性代数-向量 对于机器学习来说,数学很重要,即使你已经把大学阶段的数学知识都忘完了,还是要从记忆里拾取一些。 向量 数学概念里,向量是指具有大小和方向的量。具体的说向量可以相加生成新的向量,可以乘以标量(数字),也可以生成新的向量的对象。 比如说,一个班级里所有学生的身高、体重...

2019-04-11 16:13:54 166 0

原创 在markdown中写数学公式

插入公式规则 类型 语法 效果 行内公式 $x=2$ x=2x=2x=2 行间公式 (居中) $$x=2$$ x=2x=2x=2 下面所有语法都是放在$$之间使用的。 字母修饰 上下标 上标:^ 下标:_ 展示 语法 Cn3C_n^3Cn3​ C_n^3 ...

2019-04-11 15:56:24 444 0

原创 机器学习(一) 数据可视化

机器学习(一) 数据可视化 前言: 1.开发环境:Anaconda3-5.2.0,点击这里下载所有版本 2.语言:python 机器学习是一个很大的概念,我会的也是其中的沧海一粟,我从基础的开始和大家一起分享一下学习心得。 为什么不先说别的,要先说数据可视化? 从日常工作中,机器学习的成果怎么展...

2019-04-09 21:23:43 1483 0

原创 Jupyter Notebook常用快捷键

Jupyter Notebook常用快捷键 Jupyter Notebook 有两种键盘输入模式。编辑模式,允许你往单元中键入代码或文本;这时的单元框线是绿色的。命令模式,键盘输入运行程序命令;这时的单元框线是灰色。 命令模式 (Esc 开启) Enter : 转入编辑模式 Shift-Ente...

2019-03-19 14:08:28 75 0

原创 Java命名规范

Java命名规范 1. 项目名 全部小写。如:bigdata、startdt 2. 包名 全部小写。如:com.startdt.bigdata 3. 类名、接口名 首字母大写,多个单词组成时,采用驼峰法,每个单词首字母大写。 public class MyArray {} 4. 方法名 首字母小...

2019-03-06 19:59:52 36 0

原创 全面深入了解python(五)

全面深入了解python(五) 1. 字典 dict类型不但在各种在各种程序里广泛使用,也是python语言的基石。模块的命名空间、实例的属性和函数的关键字参数中都可以看到字典的身影。 字典类型性能出众的原因是使用了散列表。 1.1 泛映射类型 collections.abc模块中有Mapping...

2019-03-05 19:26:29 209 0

原创 全面深入了解python(四)

全面深入了解python(四) 1. 用bisect来管理已排序的序列 bisect模块包含两个主要函数,bisect和insort,两个函数都利用二分查找算法在有序序列中查找或插入元素。 1.1 用bisect来搜索 bisect(haystack, needle),其中haystack必须是一...

2019-02-28 17:17:14 130 0

原创 全面深入了解python(三)

全面深入了解python(三) 1. 切片 在python里,列表、元组和字符串这类序列类型都支持切片操作。 1.1 为什么切片和区间会忽略最后一个元素 在切片和区间不包含最后一个元素是python的风格,这个习惯符合python、c和其他语言里以0作为起始下标的传统。 当只有最后一个位置信息时...

2019-02-27 20:10:49 165 0

原创 yum出现Error downloading packages错误

yum出现Error downloading packages错误 错误表现方式: yum可以list,可以clean cache,但是无法安装,错误提示: Downloading packages: Error downloading packages: libevent-devel-2...

2019-02-22 11:57:30 5788 1

原创 全面深入了解python(二)

全面深入了解python(二) 1. 序列构成的数组 1.1 内置序列类型概览 python标准库用C实现了丰富的序列类型: 容器序列: list、tuple和collections.deque这些序列能存放不同类型的数据。 扁平序列: str、bytes、bytearray、memoryview...

2019-02-20 20:26:01 256 0

原创 Centos7安装配置mysql5.6详细教程

Centos7安装配置mysql5.6详细教程 1. 删除Centos7自带的数据库 打开终端: [root@duke ~]代表当前目录为~ [root@duke mysql]代表当前目录为mysql 查询自带的数据库 [root@duke ~]# rpm -qa|grep mariadb ma...

2019-02-20 11:48:16 1025 0

原创 全面深入了解python(一)

全面深入了解python(一) 写在开始前,此教程不是基础教程,在看之前你需要有一定的python基础,不然你可能无法理解教程到底教了哪些东西。 环境:python版本是3.6.5(>=3.4即可) 1. Python数据模型 数据模型其实是对Python框架的描述,它规范了...

2019-02-11 14:44:44 769 0

原创 java 爬虫大型教程(四)

java 爬虫大型教程(四) 基本爬虫进阶(二) 1. 爬虫的监控 你可以利用爬虫的监控功能查看爬虫的执行情况——已经下载了多少页面、还有多少页面、启动了多少线程等信息。该功能通过JMX实现,你可以使用Jconsole等JMX工具查看本地或者远程的爬虫信息。 如果你完全不会JMX也没关系,因为它的...

2019-01-29 20:15:53 590 0

原创 java 爬虫大型教程(三)

java 爬虫大型教程(三) 基本爬虫进阶(一) 1. 使用Pipeline保存结果 好了,爬虫编写完成,现在我们可能还有一个问题:我如果想把抓取的结果保存下来,要怎么做呢?WebMagic用于保存结果的组件叫做Pipeline。例如我们通过“控制台输出结果”这件事也是通过一个内置的Pipelin...

2019-01-29 14:09:59 856 1

原创 java 爬虫大型教程(二)

java 爬虫大型教程(二) 编写基本的爬虫 1. 实现PageProcessor 这部分我们直接通过CdnRepoPageProcessor这个例子来介绍PageProcessor的编写方式。PageProcessor定制分为三个部分,分别是爬虫的配置、页面元素的抽取和链接的发现。 import...

2019-01-28 17:35:09 918 0

原创 java 爬虫大型教程(一)

java 爬虫大型教程(一) 写在开始前,既然是大型教程,那就从最初始的环境变量开始搭建说起。 电脑环境:我的电脑是macbook pro,因此系统环境变量配置是和Windows不一样的,如果你的电脑是Windows系统,可以百度下相关环境变量配置。 爬虫框架:使用的是webmagic,这是国内不...

2019-01-24 21:48:35 2436 1

转载 java中this和super的用法总结

java中this和super的用法总结 this this是自身的一个对象,代表对象本身,可以理解为:指向对象本身的一个指针。 this的用法在java中大体可以分为3种: 1.普通的直接引用 这种就不用讲了,this相当于是指向当前对象本身。 2.形参与成员名字重名,用this来区分: cla...

2018-10-10 15:40:58 97 0

原创 java对象(二)

java 对象和类(二) 用户自定义类 最简单的类定义形式为: class ClassName { field1 field2 ...... constructor1 constructor2 ...... method1 ...

2018-09-04 20:50:09 98 0

原创 java对象(一)

java 对象和类(一) 对象与对象变量 要想使用对象,就必须首先构造对象,并指定其初始状态,然后对对象应用方法。 Java语言中使用构造器构造新实例。例如Java中有Date类,其对象描述一个时间点。构造器的名字应该与类名相同,因此Date类的构造器名为Date。构造一个Date对象...

2018-09-04 18:01:07 81 0

原创 java数组(二)

java - 数组(二) 命令行参数 每一个Java应用程序都有一个带String[] args 参数的main方法,这个参数表明main方法将接收一个字符串数组,也就是命令行参数。 public class commandLine { public static void ...

2018-09-03 09:47:08 104 0

原创 java数组(一)

java数组(一) 数组简介 数组是一种数据结构,用来存储同一类型值的集合。 创建数组范例: int[] a = new int[100]; 可以使用两种形式声明数组: int [] a; //第一种 int a[]; //第二种 但是大部分人喜欢使用第一...

2018-09-03 09:45:01 119 0

原创 数据分析(四)--pandas入门

Pandas入门 在安装 Pandas 之前,确保你的操作系统中有 NumPy。如果你是从源代码直接编译,那么还需要相应的工具编译建立 Pandas 所需的 C 语言与 Cython 代码。如果你按照我的建议使用了 Anaconda,那么 Pandas 就已经安装好了。 和之前导入 NumPy...

2018-06-28 21:46:46 310 0

原创 数据分析(三)--numpy进阶part2

Numpy进阶part2 1. 花哨的索引 我们知道如何利用简单的索引值(如 arr[0])、切片(如 arr[:5])和布尔掩码(如 arr[arr > 0])获得并修改部分数组。 这里介绍的花哨的索引和前面那些简单的索引非常类似,但是传递的是索引数组,而不是单个标量。花...

2018-06-28 19:34:19 164 0

原创 数据分析(二)--numpy进阶part1

Numpy进阶 Part1 1. NumPy通用函数 NumPy 通用函数的重要性——它可以提高数组元素的重复计算的效率,这也是我们写代码追求的目标。 1.1 NumPy的普通通用函数 通用函数有两种存在形式: 一元通用函数对单个输入操作, 二元通用函数对两个输入操作。 数组的运算:...

2018-06-27 22:23:06 283 0

原创 数据分析(一)--numpy入门

Numpy入门 写在开始前,本系列将使用jupyter notebook作为工具,如果你是windows系统,为了方便请下载Anaconda3-5.1.0-Windows-x86_64,这集成了所有你可以用到或者用不到的各种工具。如果你是mac或者linux系统,可以下载Anaconda3-5....

2018-06-26 21:46:47 460 0

原创 Flask从入门到做出一个博客的大型教程(五)

Flask从入门到做出一个博客的大型教程(五) 在开始之前,先来看下项目的整体结构。 prequestion/ ├── app │ ├── forms.py │ ├── __init__.py │ ├── models.py │ ├── routes.py │ └── ...

2018-05-24 18:02:17 8943 14

原创 Flask从入门到做出一个博客的大型教程(四)

Flask从入门到做出一个博客的大型教程(四) 在开始之前,先来看下项目的整体结构。 flask ├── app │ ├── forms.py │ ├── __init__.py │ ├── models.py │ ├── routes.py │ └── templat...

2018-05-21 22:54:49 7695 7

原创 Flask从入门到做出一个博客的大型教程(三)

Flask从入门到做出一个博客的大型教程(三) 在开始之前,先来看下项目的整体结构。 flask ├── app │   ├── forms.py │   ├── __init__.py...

2018-05-19 22:20:52 12957 46

原创 Flask从入门到做出一个博客的大型教程(二)

Flask从入门到做出一个博客的大型教程(二) 在开始之前,先来看下项目的整体结构。 flask ├── app │ ├── __init__.py │ ├── routes.py │ └── templates │ ├── base.html │ └─...

2018-05-19 16:30:58 15255 11

原创 使用xadmin替换Django自带的admin后台

使用xadmin替换Django自带的admin后台 Django自带有admin后台,但是其风格并不漂亮、功能也不是让人很满意。因此一些大牛就重写了admin后台叫做xadmin,进来的各位应该是对django自带的admin不是很满意,可以参照我的教程来一次替换。 0 源码获取 项目...

2018-05-14 22:27:57 22520 1

原创 网络爬虫大型教程(二)

初见网络爬虫 一 基础爬取 1. 获取网页内容 urllib是Python的标准库,包含了从网络请求数据,处理cookie,甚至改变像请求头和用户代理这些元数据的函数 from urllib.request import urlopen html = urlopen(&...

2018-05-14 17:57:17 723 0

原创 在阿里云上使用 Ubuntu16.04+Nginx + Gunicorn部署Django项目

在阿里云上使用 Nginx + Gunicorn部署Django项目 在本机上访问Django项目和在线上访问Django项目是两种不同的需求体验,前者主要要求是可以进行调试,通常是个人访问;但部署在后者上则会有人来访问,需要考虑并发问题,因此使用Django自带的runserver不能满足需要...

2018-05-14 13:58:12 993 0

提示
确定要删除当前文章?
取消 删除