零一睡不醒-CSDN博客

原创 python基础之文件读写操作

git 把代码上传到github一、文件打开方式，有三种常用的打开方法：r , w, a。r :读；w:写；a:追加（基本不用）ps: os.path 用法#os.path.dirname(path) 去掉文件名返回目录print(os.path.dirname("E:/Read_File/read_yaml.py"))#结果：E:/Read_File# os.path.d...

2018-11-22 13:51:00 396

原创 cv2报错：Problematic frame: C [cv2.cpython-36m-x86_64-linux-gnu.so+0xcd0696]

python使用模块cv2过程中，报错：## A fatal error has been detected by the Java Runtime Environment:## SIGSEGV (0xb) at pc=0x00007fe9ef5e3696, pid=25302, tid=0x00007fea12c4c740## JRE version: Java(TM) SE Runtime Environment (8.0_201-b09) (build 1.8.0_201-b09)

2020-11-02 16:16:54 909

原创装饰器模板

原文：https://www.runoob.com/w3cnote/python-func-decorators.html一、概述1、前提：python 中的函数可以像普通变量一样当做参数传递给另外一个函数。装饰器本质上是一个 Python 函数或类，它可以让其他函数或类在不需要做任何代码修改的前提下增加额外功能，装饰器的返回值也是一个函数/类对象。它经常用于有切面需求的场景，比如：插入日志、性能测试、事务处理、缓存、权限校验等场景，装饰器是解决这类问题的绝佳设计。有了装饰器，我们就可以抽离出大

2020-10-30 16:31:04 384

原创自定义pymysql工具类

一、目标：建立一个pymysql工具类，方便后续使用的时候直接导入二、功能：增删改查，断开自动重连新建mysql_tool.py文件，写入：import contextlibimport pymysqlfrom pymysql.cursors import DictCursor, CursorMYSQL_confgi = { 'host': "127.0.0.1", 'port': 3306, 'user': 'root', 'password': 'm

2020-10-30 15:25:33 823

原创关于方法重载

一、何为重载在其他语言中，可以定义多个重名的方法，只要保证方法签名唯一即可。方法签名包含3个部分：方法名、参数数量、参数类型。Python中，方法的的参数没有声明类型（调用时确定参数的类型），参数的数量也可以由可变参数控制。因此，Python中是没有方法的重载的。定义一个方法即可有多种调用方式，相当于实现了其他语言中的方法的重载。class Person: def fun(self): print("hello") def fun(self,name):

2020-10-28 14:28:18 176

原创 flask笔记一（celery异步发送信息）

一、安装当前版本：5.1.0使用redis作为broker 存储任务队列，作为backend存储执行后的结果。所以安装redis版的celery。pip install celery[redis]二、一个demo创建celery_demo文件夹，里面创建两个py文件1. tasks.py 给celery绑定任务broker: 消息代理，或者叫作消息中间件，接受任务生产者发送过来的任务消息，存进队列再按序分发给任务消费方。worker：真正执行任务的工作者backend：用

2020-10-23 17:23:58 546 2

原创安装pymysqlpool模块

1、源码下载项目地址：https://github.com/luvvien/pymysqlpool之所以使用该连接池组件，主要是因为：支持python3，基于pymysql，非常轻量化2、pymysqlpool安装：下载源码，解压，进入目录，执行安装命令：python setup.py install，完成...

2020-04-07 14:15:53 1651 1

原创 truetype 使用时出现 OSError: cannot open resource

如果确认文件路径正确但依然报错：把字体文件重命名为 xxx.ttf，xxx为英文，然后将其复制到C:\Windows\Fonts文件夹下，此时font1 = ImageFont.truetype('xxx.ttf', font_size)便可解决问题。...

2020-04-02 10:05:35 561

原创 HBase笔记整理（一）

一、HBASE 体系结构表（table）划分数据集合的概念，和传统的db中的表的概念是一样的。行键(RowKey)：一行数据的唯一标示，要想操作(read/write)一条数据,必须通过行键，其在hbase底层都是使用字节数组进行存放，所以方便我们使用rk进行排序，行键是字节数组, 任何字符串都可以作为行键；表中的行根据行键进行排序，数据按照Row ...

2020-03-27 15:50:28 634

原创 IOError: [Errno 32] Broken pipe 错误分析

一、概述Broken pipe 本质是 IOError 错误，是 Linux 系统层面的机制导致，一般发生在读写文件IO和网络Socket IO的时候。对应的 Linux 系统错误是 EPIPE，摘自【参考2】的一段话：'''Macro: int EPIPE “Broken pipe.” There is no process reading from the other end...

2020-03-27 10:41:26 16327

原创 TensorFlow2.0 实现FM

一、数据集Criteo : 2014年kaggle 广告点击率预估比赛数据集该数据集包含约4500万条记录。有13个数值特征和26个类别特征。这些列以制表符分隔，并带有以下格式：<int feat 1> ... <int feat 13> <cate feat 1> ... 该数据集可从http://labs.criteo.com/2014/02/...

2020-01-10 13:59:05 4178 2

原创 TensorFlow2.0 循环神经网络

一、Embedding 层1、词嵌入在神经网络中，单词的表示向量可以直接通过训练的方式得到，我们把单词的表示层叫做Embedding 层。Embedding 层负责把单词编码为某个向量????????????，他接受的是采用数字编码的单词????????????，如2 表示“I”，3 表示“me”等，系统总单词数量记为????????????????????????，输出长度为f 的向量????????????：???????????? = ????(????????????|???????????

2019-12-24 17:22:05 1318 1

原创 TensorFlow2.0 卷积层实现

一、自定义权值tf.nn.conv2d基于输入X: [batch_size,高，宽，通道数] 和卷积核W: [卷积核大小，卷积核大小，输入通道数，卷积核数量] 进行卷积运算，得到输出O [batch_size，新的高，新的宽，卷积核数量]import tensorflow as tfx = tf.random.normal([2,5,5,3]) # 模拟输入，3 通道，高宽为5...

2019-12-24 15:49:03 4083

原创 TensorFlow2.0 Keras 接口

一、简介Keras 是一个主要由Python 语言开发的开源神经网络计算库，最初由François Chollet编写，它被设计为高度模块化和易扩展的高层神经网络接口，使得用户可以不需要过多的专业知识就可以简洁、快速地完成模型的搭建与训练。Keras 库分为前端和后端，其中后端可以基于现有的深度学习框架实现，如Theano，CNTK，TensorFlow，前端接口即Keras抽象过的统一接口A...

2019-12-24 11:42:03 1919

原创神经网络反向传播算法numpy实现

一、任务实现一个4 层的全连接网络实现二分类任务，网络输入节点数为2，隐藏层的节点数设计为：25,50,25，输出层2 个节点，分别表示属于类别1 的概率和类别2 的概率，如图所示。我们并没有采用Softmax 函数将网络输出概率值之和进行约束，而是直接利用均方差误差函数计算与One-hot 编码的真实标签之间的误差，所有的网络激活函数全部采用Sigmoid 函数，这些设计都是为了能直接利用梯...

2019-12-23 17:19:00 2069 1

转载交叉熵与KL散度

https://blog.csdn.net/fantacy10000/article/details/90668839

2019-12-23 11:19:54 116

原创 NLP中的卷积神经网络

原文：http://www.wildml.com/2015/11/understanding-convolutional-neural-networks-for-nlp/一、何为卷积1、卷积最开始是指信号处理领域的卷积操作：https://www.cnblogs.com/alexanderkun/p/8149059.html2、图像的卷积，理解卷积最简单的方法是把它想成一个应用到矩阵上...

2019-12-04 16:11:20 1303

原创 win10 pycharm 出现MemoryError 和 Unable to allocate array with shape

1、numpy 在定义数组的时候，采用更低的精度。array_ = np.zeros((10000,10000),dtype='float32') # 默认float64一般计算上通过numpy得到的16位浮点数，是FP16。float64占用的内存是float32的两倍，是float16的4倍；比如对于CIFAR10数据集，如果采用float64来表示，需要60000*32*32*...

2019-11-29 16:00:17 39023 7

原创 VMware Workstation 与 Device/Credential Guard 不兼容等问题

今天换用了别人的电脑，要在VMware安装centos虚拟机，发生报错。安装教程：https://blog.csdn.net/yang5726685/article/details/78635388一、VMware Workstation 与 Device/Credential Guard 不兼容看到了知乎大佬的答案https://www.zhihu.com/question...

2019-11-27 09:35:46 2705 2

原创爬虫错误记录

1、module 'csv' has no attribute 'writer'自己命名的Python文件就叫做csv.py

2019-11-21 14:30:44 452

原创 fiddler 爬虫总结

一、fiddler安装和配置https://www.cnblogs.com/111testing/p/6231215.htmlhttps://segmentfault.com/a/1190000016954668二、使用手机访问app,通过设置过滤选项，只保留带有api的连接点击目标url连接，然后点击右侧的Inspectors 下面的TextView查看网页内容依然是...

2019-11-18 18:02:52 992

原创 selenium爬虫总结

一、配置 chrome浏览器选项：https://blog.csdn.net/zwq912318834/article/details/78933910理论上完成环境变量配置之后，executable_path可以不用指定。from selenium import webdriverimport timechrome_option = webdriver.ChromeOpti...

2019-11-15 14:35:52 918 1

原创如何使用别人的github.io 博客模板

在搭建自己的github.io 博客的时候，如果我们想使用别人的模板而不是系统给定的主题。则需要开启写轮眼拷贝别人的博客。1、注册完成后搜索qiubaiying.github.io进入我的仓库2、点击右上角的Fork将我的仓库拉倒你的账号下3、创建repo当然，一切的前提是你得首先有个github的账户，这里还请自行解决。登陆你的账户后，你可以创建一个新的repo。请务必注意...

2019-10-25 16:44:36 4216

原创 BP算法记录

一文彻底搞懂BP算法：原理推导+数据演示+项目实战（上篇）一文彻底搞懂BP算法：原理推导+数据演示+项目实战（下篇）深度学习 --- BP算法详解（误差反向传播算法）非常详细的讲解了何为BP...

2019-10-22 15:13:32 244

原创深度学习之RNN(循环神经网络)

对深度学习之RNN(循环神经网络)的理解。RNN网络存在三个矩阵在不同时刻权重共享，即从头到尾只需要计算这三个矩阵。U:输入层到隐层的矩阵V:隐层到输出层W:隐层到自身的矩阵二、反向传播RNN损失为各个时间点的损失之和，故各个梯度的变化为各个时间点梯度变化之和RNN语言模型为例子，损失函数使用交叉熵，其中yt为t时刻正确的词语，y^t为t时刻预测的词语。分别...

2019-10-22 13:37:52 199

原创基于信息熵的分词及新词发现（三）基于天龙八部小说的新词发现

算法原理在一、二部分：一、基于信息熵的分词及新词发现（一）信息熵的理解二、基于信息熵的分词及新词发现（二）统计学意义下的词语构成代码流程如下：1、读取天龙八部小说文档，并转换为Series 数据结构。Series是一个一维数组，是基于NumPy的ndarray结构。Pandas会默然用0到n-1来作为series的index，但也可以自己指定index(可以把index理解为di...

2019-10-21 14:15:35 619

原创基于信息熵的分词及新词发现（二）统计学意义下的词语构成

要想从一段文本中抽出词来，我们的第一个问题就是，怎样的文本片段才算一个词？1、出现频数超过某个阈值的片段，作为该语料中的词汇输出。片段长度为为超参数。2、光是出现频数高还不够，一个经常出现的文本片段有可能不是一个词，而是多个词构成的词组。在人人网用户状态中，“的电影”出现了 389 次，“电影院”只出现了 175 次，然而我们却更倾向于把“电影院”当作一个词，因为直觉上看，“电影”和“院”...

2019-10-21 13:44:32 491

原创基于信息熵的分词及新词发现（一）信息熵的理解

“信息熵”是一个非常神奇的概念，它能够反映知道一个事件的结果后平均会给你带来多大的信息量。如果某个结果的发生概率为 p ，当你知道它确实发生了，你得到的信息量就被定义为 – log(p) 。 p 越小，你得到的信息量就越大。如果一颗骰子的六个面分别是 1 、 1 、 1 、 2 、 2 、 3 ，那么你知道了投掷的结果是 1 时可能并不会那么吃惊，它给你带来的信息量是 – log(1/2) ，...

2019-10-21 13:23:17 1602 1

原创推荐系统中的NDCG

说到NDCG就需要从CG开始说起。CG（cumulative gain，累计增益）可以用于评价基于打分/评分的个性推荐系统。假设我们推荐k个物品，这个推荐列表的CGk计算公式如下：CGk=∑ikreliCG_k=\sum _i^k rel_iCGk=i∑kreli.relirel_ireli 表示第kkk个物品的相关性或者评分。假设我们共推荐kkk个文档，relirel_ireli...

2019-10-18 14:12:11 2256

原创无重复字符的最长子串(leetcode-3)

给定一个字符串，请你找出其中不含有重复字符的最长子串的长度。示例1:输入: "abcabcbb"输出: 3解释: 因为无重复字符的最长子串是 "abc"，所以其长度为 3。class Solution: def lengthOfLongestSubstring(self, s): """ :type s: str :...

2019-10-10 13:57:48 117

原创 NLP 之命名实体识别

对这个代码的理解：https://blog.csdn.net/buppt/article/details/81180361一.训练集数据格式19980101-01-001-004/m １２月/t ３１日/t ，/w 美国白宫/nt 发言人/n 、/w 国家/n 总统/n 奥/nr 巴马/nr 发表/v １９９８年/t 新年/t 讲话/n 《/w 迈向/v...

2019-10-09 09:31:16 1518

原创推荐系统中的矩阵分解

一、传统的奇异值分解SVDSVD分解要求矩阵是稠密的，也就是说矩阵的所有位置不能有空白。有空白时我们的MM是没法直接去SVD分解的。大家会说，如果这个矩阵是稠密的，那不就是说我们都已经找到所有用户物品的评分了嘛，那还要SVD干嘛! 的确，这是一个问题，传统SVD采用的方法是对评分矩阵中的缺失值进行简单的补全，比如用全局平均值或者用用户物品平均值补全，得到补全后的矩阵。接着可以用SVD分解并降维...

2019-09-30 15:32:29 384

原创如何从当前语料库生成自定义的逆文档频率（IDF）文件（三）

第一篇：https://blog.csdn.net/qq_34333481/article/details/84105246第二篇：https://blog.csdn.net/qq_34333481/article/details/84235921一个可以运行的例子'''all_dict = dict() # 每个单词在所有文章中出现的次数。其每个键的值是一直在+1的。temp_...

2019-09-23 16:56:15 670 1

原创 python os模块

1、os.path.dirname(__file__)作用：返回脚本的路径，但是需要注意一下几点:1、必须是实际存在的.py文件，如果在命令行执行，则会引发异常NameError: name '__file__' is not defined2、结合os.path.abspath用，效果会好，如果大家看过一些python架构的代码的话，会发现经常有这样的组合os.path.di...

2019-09-17 14:11:50 230

原创 git 理解

一、git分支Git 的分支，其实本质上仅仅是指向提交对象的可变指针。 Git 的默认分支名字是master。在多次提交操作之后，你其实已经有一个指向最后那个提交对象的master分支。它会在每次的提交操作中自动向前移动。Git 的 “master” 分支并不是一个特殊分支。它就跟其它分支完全没有区别。之所以几乎每一个仓库都有 master 分支，是因为git init命...

2019-09-10 17:33:06 116

原创 python 查看处理器架构

python-c "import platform;print(platform.architecture()[0]);print(platform.machine())"

2019-09-09 09:29:34 1750

原创协同过滤原理和python实现——基于movielens 100k数据集

文章内容和代码来自这篇博客：one-一个一、基于用户的协同过滤Pu,i 用户u和电影i Rv,i 用户v对电影i的评分 Su,v 用户u和用户v的相似度可以看出，基于用户的协同过滤的思想：求出用户之间的相似度，具体到每部电影i的时候，遍历所有用户，相似度乘以用户对该电影的打分累加求和，并以用户相似度之和作为分母，得到用户u对电影i的喜好程度。二、基于物品的协同过滤...

2019-08-01 14:24:12 9430 1

原创判别式模型与生成式模型

判别式模型与生成式模型机器学习模型有两个重要类别：判别式模型与生成式模型。这两种模型的区别，是很多初学者会遇到的一个坎儿。判别式模型的意思是，给出一条数据，模型要为数据给出一个类别。一般来说，数据是比较复杂的，比如一句话、一张图这样的；类别则比较简单，一般就是「是」或「否」，或者有限的几个类别。用 X 表示数据，Y 表示类别，则判别式模型建模的就是 P(Y|X)。至于 X 本身的分布是怎样...

2019-07-25 10:27:37 208

原创 tensorflow1.0

https://blog.csdn.net/xzy_thu/article/details/762206541、 tf.InteractiveSession():tf.InteractiveSession():它能让你在运行图的时候，插入一些计算图，这些计算图是由某些操作(operations)构成的。这对于工作在交互式环境中的人们来说非常便利，比如使用IPython。tf.Sessi...

2019-07-22 13:55:12 233

原创 pandas 读取csv 按行读取

import pandas as pdcsvfile = open('text.csv',encoding='utf-8')df = pd.read_csv(csvfile,engine='python')# 按行读取保存到字典里，假设每行有三个字段，item_id,info,titledict_item_id = {}dict_info = {}dict_title = {}di...

2019-07-18 11:05:12 29802

KDD Cup 2012 Track1 数据集

空空如也