ckriser-CSDN博客

原创如何在Python中计算文件的MD5哈希

如何在Python中计算文件的MD5哈希MD5是一种消息摘要算法，用于从可变输入数据中创建唯一的固定大小值。MD5通常用于检查文件在传输过程中是否损坏（在这种情况下，哈希值称为校验和）。文件中的任何更改都将导致不同的MD5哈希值。以下Python程序计算给定文件的MD5哈希值。计算出的128位MD5哈希将转换为可读的十六进制形式。Python程序生成文件的MD5哈希值import hashlib filename = input("Enter the file name: ")with ope

2020-05-19 16:21:54 7553

原创也谈进程和线程

首先来看一下为什么会有进程的出现，为了管理程序，因为在一个只有程序调度的操作系统中，所有程序共享内存，会引起冲突，然后需要统一的内存管理机制，保证每个程序都是由独立的运行空间。引用地址：http://www.ruanyifeng.com/blog/2013/04/processes_and_threads.html中的viho_he用户的评论内容----ps：有时候评论反而更精彩抛开各种技术细节，从应用程序角度讲：在单核计算机里，有一个资源是无法被多个程序并行使用的：cpu。没有操作系统的情况下

2020-05-11 11:32:15 507

原创 gin使用入门

参考链接：Go Gin Examplego get -u github.com/gin-gonic/gin

2020-04-22 15:44:29 390

原创 ES一些使用记录

ES随机返回数据{ "size": 1, "query": { "function_score": { "functions": [ { "random_score": { "seed": "1477072619038"...

2020-04-19 14:35:52 514

原创 tornado并行执行多个异步请求

tornado并行执行多个异步请求

2020-04-18 17:16:46 822

原创 golang入门学习

全文来自How to Write Go Code 自己跟着写了一遍，并记录了其中的过程。一，创建go.mod$ mkdir hello$ cd hello$ go mod init example.com/user/hellohello.gopackage mainimport "fmt"func main() { fmt.Println("Hello, world.")...

2020-04-14 11:30:46 369

原创常见数据库集群连接 python

mongo的参考链接: 关于MongoDB连接字符串URI格式from loguru import loggerfrom pymongo import MongoClientMONGODB_URI = "mongodb://user:pwd@mongo-server.com:27017," \ "mongo-server2.com:27017, mongo-se...

2020-04-11 16:34:21 821

原创 VUE使用原理 --声明式编程

<!DOCTYPE html><html lang="en"><head> <meta charset="UTF-8"> <title>vue 学习</title></head><body><div id="app"> <!--id为app的页面元素...

2020-04-10 16:06:02 759

原创 Python 批量操作数据库的记录

# 1. ES批量操作from elasticsearch5 import Elasticsearch, helperses = Elasticsearch([{"host": ELASTIC_SEARCH_IP, "port": 9200, "timeout": 1500}])## 批量查询es_result = helpers.scan( client=es...

2020-04-09 09:48:18 828

原创 centos7.6安装mysql 8并配置

1.卸载MariadbCentos7将默认数据库mysql替换成了Mariadb，使用下面方式安装需要先卸载Mariadb。以下命令都是默认在root下执行，如果不是root用户可以通过 sudo权限进行安装rpm -qa|grep mariadb //查询出已安装的mariadbpm -e --nodeps 文件名 //一一卸载2.获取mysql8安装包rpm -Uvh mysql...

2020-03-25 17:50:00 509

原创复杂查询条件的mongoexport

导出命令中把查询的json放到 --queryFile命令的文件中即可mongoexport --db dbname --port 27017 --collection cname --queryFile '/data/mongodb/query.txt' --out /data/xxx/result_query.txt其中query.txt内容json体查询如：{"id": {"$in":...

2020-03-25 14:33:25 864

原创 MySQL的存储过程--循环，嵌套循环，变量定义及其使用

DROP PROCEDURE IF EXISTS update_chapter_id; -- 存在存储过程就先删除CREATE PROCEDURE update_chapter_id() --定义无参数输入，输出的存储过程BEGIN -- 定义变量 DECLARE num_change INT DEFAULT 0; DECLARE s int DEFAULT 0; D...

2020-03-10 15:05:26 1344

原创流量拷贝-gor,压测

一个好用的工具，记录下，相关连接参考：流量拷贝-gor,生产环境模拟：使用Gor复制生产环境流量直接网盘下载 gor工具下载提取码：pvaq

2019-06-17 14:20:03 579

原创 redis集群安装5.0版本

两台机器部署：现有两台机器10.100.16.83和10.100.16.84局域网IP部署集群环境：使用最新的稳定版本redis-5.优势是这个版本把集群启动从ruby中迁移到C中了，这样就不用安装ruby环境。直接使用redis-cli --cluster create命令就可以了。单机环境配置，配置完成后用于创建多个port的配置直接使用.redis-config:bind : 本...

2019-04-30 10:16:01 349

原创 python列表字典嵌套排序

# 需要排序的内容，要求按照数值由低到高进行排序att_value = [{'万科': '0.7318349007046632'}, {'影视': '0.5518031664124353'}, {'湖南卫视': '0.5666107580617218'}, {'窦骁': '0.7329163786180936'}, {'郁亮': '0.7237278818910436'}]# 方法：先将di...

2019-04-01 19:05:25 1880

原创 pandas学习

Pandas学习：pandas 两大主要数据结构：Series,DataframesSeries:一种类似于一维数组的对象,它由一组数据(各种Numpy数据类型)以及一组与之相关的数据标签(即索引1)组成。仅由一组数据即可产生最简单的Series.Series:创建from pandas import Series,DataFrameimport pandas as pdimport...

2019-03-26 14:19:35 270

原创推荐算法实战-基于用户的推荐（use_base）

代码实现是基于：推荐系统实战-----项亮；import pandas as pditems_data = pd.read_csv("items_action_2.csv")items_data.head() Unnamed: 0 attentions 0 0 ...

2018-11-01 22:54:48 1290

原创 gensim中word2vec使用

&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;~~~~~~&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp

2018-10-16 11:15:16 25489 8

原创 NLP文本分类--词向量

1.基于规则，对于要提取的分类维护一个dict,在dict里面保存需要提取的关键词，存在关键词的对应标记为分类；（缺点，不断的去维护词典）2.基于机器学习：HMM(分词最常用的)，CRF,SVM,LDA,CNN3.词袋模型：bag of word :(one hot)一种是统计词频和位置，一种是只存储是否出现；（缺点很明显，只有词出现信息，对于词的重要度完全没有体现）4.tf-idf：先考虑...

2018-10-12 23:55:35 5982

原创 Tornado使用(一)

使用tornado就是因为他是Python的轻量级框架，业务需求就是封装一些简单接口供业务使用，主要是进行数据的封装处理。tornado的书：Introduction to Tornadotornado的视频：千锋python视频教程–tornadoPython中使用需要先进行安装：pip install tornado这样就安装成功了。使用的时候就直接import就好了。tornad...

2018-09-27 23:27:06 593

转载 deep learning中一些层的介绍和代码实现

一、relu层 1、前向传播 2、反向传播二、dropout层 1、dropout工作原理 2、在哪里使用dropout 3、dropout的实现 4、dropout的功效 5、python实现dropout的前向传播 6、python实现dropout的反向传播三、卷积层 5.1 Im2col 5.2前向传播计算图 5.3反向传播图 5.4小案例 1、前向传播 ...

2018-09-05 08:16:34 597

原创机器学习入门之十大算法

决策树随机森林逻辑回归SVM贝叶斯算法K最近邻K均值Adaboost神经网络马尔可夫

2018-08-20 16:08:49 249

原创 PageRank算法

PageRank由来

2018-08-20 11:45:40 6762

原创黑塞矩阵（海森矩阵，Hessian Matrix）与牛顿法最优化

DDDDDDDDDDD

2018-08-19 11:02:46 11798

原创机器学习基础-损失函数，范数

一、统计学中常见的损失函数有以下几种：1.0-1损失函数（0-1 loss function） L(Y,f(x))={1,Y≠f(X)0,Y=f(X)L(Y,f(x))={1,Y≠f(X)0,Y=f(X) L(Y,f(x)) = \begin{cases} 1, Y \neq f(X)\\0, Y = f(X)\end{cases} 2.平方损失函数（quadratic loss...

2018-08-10 17:08:56 3319

原创 EM(Expectation Maximization)算法

一、EM由来很多时候对EM算法产生疑惑是不清楚这个算法是怎么来的，为什么这样；又有什么样的用途。其实EM算法和朴素贝叶斯算法都是在用概率的观点通过已经观测到的数据（或者说样本）来推测未知的数据（这个样本对应的整体的概率样本分布）；而EM算法比朴素贝叶斯更近的一步是其中的隐含变量更多；无法通过朴素贝叶斯的计算方法直接求出所有变量；他们的共同点都是统计学观点，通过极大似然的估计的思想来进行求解...

2018-08-04 14:08:54 969

原创协方差，协方差矩阵

最小二乘法的方法需要写一下：用svd,还有其他的

2018-08-01 10:47:18 1017

原创机器学习十大算法之五：朴素贝叶斯法

2018-07-31 11:11:52 468

原创机器学习十大算法之四：SVM（支持向量机）

SVM(支持向量机)支持向量机(Support Vector Machine)是一种十分常见的分类器，曾经火爆十余年，分类能力强于NN，整体实力比肩LR与RF。核心思路是通过构造分割面将数据进行分离，寻找到一个超平面使样本分成两类，并且间隔最大。而我们求得的w就代表着我们需要寻找的超平面的系数，如下图： ...

2018-07-23 11:50:56 1324

原创同济数学之矩阵及其运算----读书笔记

第二章：矩阵及其运算1.矩阵定义1：由m∗nm∗nm*n个数aij(i=1,2,...,m;j=1,2,...,n)aij(i=1,2,...,m;j=1,2,...,n)a_{ij}(i=1,2,...,m;j=1,2,...,n)排成m行n列的数表 a11a21....am1a12a22...am2............a1na2n...amna11a12...a1na21a22....

2018-07-20 18:11:10 535

原创同济数学之行列式--读书笔记

同济数学五版一、行列式1.二阶三阶行列式求解下面的x1,x2x1,x2x_1,x_2 {a11x1+a12x2=b1a21x1+a22x2=b2(1)(1){a11x1+a12x2=b1a21x1+a22x2=b2\begin{cases}a_{11}x_1 + a_{12}x_2 = b_1\\a_{21}x_1 + a_{22}x_2 = b_2\tag{1}\e...

2018-07-19 09:08:36 1071

原创机器学习十大算法之三K-means

K-means算法（无监督算法，聚类算法）K-means算法，也称为K平均或K均值算法； K平均聚类的目的是：把n个点（可以是样本的一次观察或一个实例）划分到k个聚类中，使得每个点都属于离他最近中心点的距离最近（或者说相似度上更相近的）对应的聚类。 1.从定义可以看出Kmeans主要是通过K中心和对K中心的距离计算进行聚类；所以K-means主要问题是K值选取和距离（相似度衡量）使...

2018-07-16 18:08:35 3459 1

原创机器学习十大算法之二：KNN

一、KNN(K Near Neighbor)算法详解一、概念：KNN（K Near Neighbor）：k个最近的邻居，即每个样本都可以用它最接近的k个邻居来代表。如：“近朱者赤，近墨者黑” 最近邻 (k-Nearest Neighbors， KNN) 算法是一种分类算法， 1968年由 Cover和 Hart 提出，应用场景有字符识别、文本分类、图像识别等领域。该算法...

2018-07-10 20:44:37 1349

原创向量基础知识

设a=（x,y）,b=(x’,y’).一、向量的加法　　向量的加法满足平行四边形法则和三角形法则. 　　AB+BC=AC.　　a+b=(x+x′,y+y′).　　a+0=0+a=a.AB+BC=AC.　　a+b=(x+x′,y+y′).　　a+0=0+a=a.　　AB+BC=AC.　　a+b=(x+x',y+y').　　a+0=0+a=a.　　　　向量加法的运算律：　...

2018-07-05 18:36:02 18697

原创机器学习十大算法之一：决策树

一、决策树模型概述1.决策树模型(Decision Tree Model)出发点：模拟人决策思想的过程，决策树基于树结构进行预测。是一种树形结构，每个内部节点表示一个属性上的判断每个分支对应该判断的一种可能结果(即该属性的某个取值)每个叶节点代表一种分类结果，本质是一颗由多个判断节点组成的树。学习过程：通过对训练样本的分析（通过信息熵等）来划分树的结构,确定树节点对应的属性；...

2018-07-04 22:33:55 2615

转载机器学习常用距离

一、欧氏距离(Euclidean Distance)：欧氏距离是最容易直观理解的距离度量方法，我们小学、初中和高中接触到的两个点在空间中的距离一般都是指欧氏距离。二维平面上点a(x1,y1)与b(x2,y2)间的欧氏距离: d12=(x1−x2)2+(y1−Y2)2−−−−−−−−−−−−−−−−−−−√d12=(x1−x2)2+(y1−Y2)2d_{12}=\sqrt{(x_1...

2018-07-03 13:33:20 513

原创算法图解[Aditya Bhargava]--读书笔记

一、算法复杂度通过时间复杂度表示O（n）二、选择排序1.选择排序三、递归1.递归两点2.递归调用栈一、算法复杂度通过时间复杂度表示O（n）大O表示法是一种特殊的表示法，指出了算法的速度有多快。一些常见的大 O 运行时间:O(log n)，也叫对数时间，这样的算法包括二分查找。O(n)，也叫线性时间，这样的算法包括简单查找。O(n * ...

2018-07-02 23:26:13 1906 1

原创 python可视化工具:matplotlib+pyecharts使用详解

准备一、matplotlib快速入门二、matplotlib进阶–绘制常见的图表1、绘制折线图2、绘制柱状图3、绘制条形图4、绘制直方图5、绘制饼状图6、绘制散点图7、绘制堆叠图三、matplotlib进阶–综合应用四、matplotlib进阶-优化图形1、优化柱状图2、利用subplot绘制多幅图形五、matplotlib进阶–加载数据文件进行可视化...

2018-06-27 21:04:53 19241 8

原创爬虫学习

爬虫学习3. 爬虫深度优先和广度优先爬取网页会存在环路的情况：比如导航栏通过URL去重，跳过已经爬取的URL深度优先按照垂直进行（scrapy是用这个方法）深度优先算法：广度优先按照层次进行访问广度优先算法：爬虫去重策略将访问过的URL保存经过md5方法哈希后到set中用bitmap方法，将访问过的URL通过has...

2018-06-27 08:23:04 256

原创 python基础（七）数据持久化

1、python中csv的操作1、CSV文件的读、写操作#读操作import csvwith open("/路径/文件名.csv","r") as csvfile: #固定写法，使用open()方法，可以避免还要关闭file，'r'表示读操作 read=csv.reader(csvfile) #使用csv.reader()方法，读取打开的文件，返回为可迭代类型...

2018-06-26 19:33:48 2018

空空如也

空空如也