自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(61)
  • 资源 (2)
  • 收藏
  • 关注

原创 pandas 读取任意范围数据数据且不用全量加载内存

pandas 读取指定范围数据,避免全部加载内存主要参数header: 指定列名文件skiprows :指定 哪些行可以跳过,可以是范围 例如 range(10,100)nrows :指定总共加载多少行数据。

2024-04-24 11:49:50 161

原创 python transformers 查看默认下载地址

查看本地 huggingface 代码库。

2024-04-19 11:19:26 136

原创 pandas 读/写取多个sheet 的excel

经常使用pandas 读取多个sheet 的文件,读取方式,先获得sheet 名字,再指定sheet_name 参数进行读取 ,写多个sheet 到同一个文件。

2023-07-05 21:50:37 2139

原创 使用python 装饰器写 IO

经常做文本处理,会写大量的 with open(file,... encoding="utf-8") as f ,可以使用装饰器来写一个一劳永逸的IO方式,每次代码只需要写业务处理逻辑,而且能够 自己不断优化,减少重复代码的开发。

2022-09-22 17:14:40 262 1

原创 python多进程文件处理(二)

如何在python中不用分割文件的使用多进程完成文件处理,换句话说,和单进程跑程序一样的完成处理,具体demo 如下先把数据读入list ,再多进程处理,最后根据自己的要求完成结果的打印

2022-06-28 15:51:57 509

原创 python 多进程进行文件处理(一)

在文件处理的时候,经常会遇见大文件数据,单进程处理速度太慢,可以通过多进程来提升效率应用场景一:同时并行处理多个小文件,处理完成后 写回多个文件主要使用了 pool.starmap 函数,特别强调,自定义传递参数 并行写入并放到list里面即可以,params = [(inf1,outf1,param1),(inf1,outf1,param2)]...

2022-06-22 20:50:08 1187

原创 linux 使用xargs 批量 kill 任务

在多进程开发的时候,进场需要强制终止 程序的运行,一个个kill 效率不高,分享给大家如何批量删除进程其中 processor_name 需要替换成自己进程信息

2022-06-20 19:50:05 1024 1

原创 ubuntu gpu显卡内存 一直被占,nvidia-smi 看不到进程

使用 fuser 命令 查看 显卡进程信息,注意调整参数,可能你的显卡 是nvidia1,或nvidia6fuser -v /dev/nvidia0如果 fuser 命令 找不到,如图fuser: command not found安装fuser shell命令apt-get install psmisc查找到 ID 后 kill -9 $pid最后 nvidia-smi 查看 进程占用最后推荐使用 这个命令来查看 gpu使用情况watch -n 0....

2021-01-15 10:44:57 4642

原创 scipy 计算向量的余弦相似度

使用scipy 计算预选值from scipy.spatial import distanceprint(1-distance.cosine([1,0],[0,1]))具体 应用:使用bert 计算 相似度import keras_bertfrom scipy.spatial import distance# bert 模型地址自己设定model = 'chinese_L-12_H-768_A-12'texts_1 = '爽肤水、柔肤水、洁肤水、精华水、紧肤水、化妆水、精萃液、

2021-01-08 09:52:21 1524

原创 bert 使用(3)

之前 分享了如何原生的使用 bert 和 albert ,但 在预测的时候 只能预测单条,无法进行批量预测。bert模型 现在已经出现两年,各种使用bert 的方式越来越方便,今天介绍一下 如何使用 bert-for-tf2 调用 bert 和albert 等相较于使用原生bert ,下面方法 代码简单调用 方便,和常规模型搭建 相同 ,便于 使用 keras 来搭建更复杂的模型环境要求: tensorflow 1.14 以上 或 tensorflow 2.0pip install bert.

2020-06-04 21:51:25 1599

原创 albert 中文使用

最近Google 设计了一个【精简版的BERT】ALBERT,预测性能和bert相比大大提高,自己尝试直接调用其开源代码:https://github.com/google-research/ALBERT未能直接跑通,自己调试成功的代码地址如下:https://github.com/HappyYuanFang/albert_demo.git,该代码可直接在windows pycharm中跑通...

2020-02-10 15:56:30 5680 10

原创 win10 系统 anacoda3 pip 报错解决方案

win10新环境安装anaconda3,配置好环境后,pip 无法使用 报C:\ProgramData\Anaconda3\Scripts>pip install dotmapTraceback (most recent call last): File "C:\ProgramData\Anaconda3\Scripts\pip-script.py", line 10, in ...

2019-12-02 17:13:51 781

原创 bert 中文使用(2)

曾写过bert cs服务方式的调用方法:https://blog.csdn.net/renyuanfang/article/details/86701148,这种方式优点是操作简单,但也有很大的缺陷,不能 fine-tune,操作繁琐,而且速度非常慢 ,不能在windows上使用。最近一直尝试另一种bert的调用方式,克服了上面所说缺点,具体如下:1.准备 tenso...

2019-09-24 23:21:40 3194 19

原创 conda\pip 安装pytorch

最近GPU 上重新安装pytorch 出现了一些问题,整理一下正确安装pytorch1.打开pytorch 官网https://pytorch.org/如图生成自己安装环境对应的命令 ,如果找不到对应版本,可以直接替换版本号即可,例如在 cuda 9.0 下安装 torchconda install pytorch torchvision cudatoolkit=9.0 -c...

2019-09-18 11:35:58 1405

原创 BeautifulSoup 网络爬虫的简单使用

在文本处理过程中,经常需要业余的抓取一些训练语料,因此渐渐学会了如何使用BeautifulSoup 解析网页:首先,登录beautifulSoup 官网,查看 该package 的基本安装,入门,以及基本组成。https://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/,主要目的了解 html 标签的种类,知道什么是标签Tag,什么是标签属性,方便以后按...

2019-09-09 21:22:22 748

原创 tensorboard 启动报错 Tensorboard could not bind to unsupported address family

在 rensorboard 启动时出现 错误“Tensorboard could not bind to unsupported address family”解决办法 启动时 添加 主机名字 和端口号tensorboard --logdir=logs --port 8080 --host 192.168.1.1...

2019-07-26 17:23:10 3683

原创 python 活用命令行参数之argparse

python 开发,特别是文本处理方面,有没有经常vim 打开文件去修改参数,例如文件名称等,为了能避免 这种情况,可以使用argparse 直接在命令行修改自己可变的参数,具体使用方式看代码import argparseparser = argparse.ArgumentParser(description='data pre process')parser.add_argument...

2019-06-13 22:58:26 309

原创 linux 进程 前台执行,转后台

linux 终端上跑程序,如果仅仅在前端跑进程,窗口连接中断,进程也会随之被kill,可以是用法 如下操作 ,实现 前台运行到后台的转换(黑体未输入的命令):ctrl +z ,暂停进程 bp 把进程切换的后台继续执行...

2019-06-06 13:14:11 3184

原创 keras 使用 self-attention

self-attention 原理 keras 使用self-attention安装pip install keras-self-attention使用demo import kerasfrom keras_self_attention import SeqSelfAttentionmodel = keras.models.Sequential(...

2019-05-28 09:46:09 7446 1

原创 python install causes ModuleNotFoundError: No module named '_swigfaiss'

faiss 是facebook 开源的一个相似度检索工具,支持微秒级 相似度的检索。在安装过程中出现了一些坑 ,分享一下安装过程主要问题:提示 install causes ModuleNotFoundError: No module named '_swigfaiss' 的错误 ,后尝试各种解决办法才解决解决办法按照官网https://github.com/facebookres...

2019-05-24 21:26:46 10792 3

原创 python 使用 xml.etree.ElementTree 解析 xml

使用xml.etree.ElementTree (简称ET) 来解析 xml 非常好用推荐给大家。按照我自己的理解,使用ET 解析xml 就像 遍历 字典一样 ,以如下数据为例<?xml version="1.0" encoding="utf-8"?> <SMP2019-ECISA> <Doc ID="4"> <Sentence I...

2019-05-24 18:15:43 870

原创 python 中正则表达式的学习

在做文本处理的时候,经常会使用正则表达式,每次使用的时候,都要使用搜索引擎,怎么样才能熟练掌握,提高自己开发的效率,故决定 把正则表达式梳理一下,方便自己掌握1.split如果是单个分隔符,可以直接使用字符串的s = "hello,csdn"print(s.split(","))多个分隔符使用正则表达式import re# 中文分句doc = "厉害了!经参...

2019-05-15 20:23:41 170

原创 java 生成uuid

uuid 作为通用识别码,其java的实现版本如下 ,本文以 将url(https://blog.csdn.net/renyuanfang/article/details/86701148)转换成uuid为例,实现具体的代码实现import java.util.UUID;import java.nio.ByteBuffer;import java.nio.ByteOrder;impor...

2019-05-14 20:14:53 1116

原创 python 生成 uuid

uuid 作为通用识别码 ,在开发中经常被使用,本文主要介绍如何在python中生成 uuid,本文以https://blog.csdn.net/renyuanfang/article/details/86701148为主要示例将其转化成uuidpython版本import uuid# 创建一个uuid 对象,可以使用系统默认提供的namespace = uuid.NAME...

2019-05-14 20:04:53 2273

原创 python 时间处理相关应用

总结一下,python3中时间处理的相关应用import datetimeimport time# 时间戳 已秒为单位timestamp = time.time()# 当前时间的处理dt = datetime.datetime.now() # 输出2019-04-19 10:29:14.544750# 格式化dt_format = dt.strftime('%Y-%m...

2019-04-19 14:27:57 134

原创 hadoop-streaming 需要的python版本打包

在使用python写mapper-reduce的时候,集群的python 环境往往不能满足开发的需求,需要自己重新打包python,以下是自己打包python 的主要过程:下载python wget https://www.python.org/ftp/python/3.6.8/Python-3.6.8.tgz# 解压tar -xzvf Python-3.6.8.tg#指定pyth.........

2019-04-11 15:55:09 1242

原创 python 去掉html标签

通过爬虫抓下来的内容,有些正文中还保留一些html 标签可以通过如下方式去除import retext = "精彩!广东男篮141-118大胜深圳,胡明轩成为场>上新亮点 <p><font>北京时间4月8日讯:今天CBA赛场重燃战火,迎来半决赛的首场争夺。广东德比也就此打响,广东男篮在东莞主场迎战前来挑战的深圳男篮。结果广东队从一开场就打出了王者之气...

2019-04-11 15:24:55 1513

原创 vim 外部粘贴代码,如何保持原格式,而不持续缩进

主要内容:使用“:set paste” 来实现vim 按照源文件格式复制在vim 使用中偶尔要复制外部代码,常常出现不停缩进的问题:怎么避免此种情况出现呢可以在命令模式中使用“:set paste”后重新插入就好退出 粘贴模式 命令模式 输入 :set nopaste...

2019-03-27 09:55:11 11320 1

原创 jieba 分词如何控制分词粒度

本文主要内容是分词力度的应用场景 jieba分词如何实现分词的粒度分词粒度的概念我最喜欢的篮球明星是勒布朗·詹姆斯,一般我们直接称呼他为詹姆斯以该句话为例,最好的分词结果是 “勒布朗·詹姆斯” 和 “詹姆斯”都能分离出来。这就涉及到了分词粒度的控制,即如何保证长的词语不会被分开。常用分词工具,ansj 直接提供分词粒度的控制和词性的自定义校正 而 python 版本的jieb...

2019-03-26 20:00:47 6138

原创 docker 安装 基于python3.6 的 tensorflow-gpu

dockerhub 上 如图,官方提供了很多tensorflow的镜像,可根据自己的驱动,cuda版本使用对应的镜像,具体使用方式参考tensorflow 官方docker安装文档https://www.tensorflow.org/install/docker?hl=zh-cn但是这些镜像存在一些不足,例如镜像 的系统环境是ubuntu,python 版本是3.5等等,为了解决这些问...

2019-03-16 18:20:26 5869

原创 windows git 错误 HTTP Basic: Access denied and fatal Authentication

idea 更新代码出现 “HTTP Basic: Access denied and fatal Authentication” 按照网上提示 输入命令,重置账户密码git config --system --unset credential.helper但错误并没有解决,变成了 “error: could not lock config file filepath/../.git/c...

2019-03-14 09:51:16 405

原创 linux 命令操作 百度云盘

linux 操作百度云盘主要包括以下内容环境安装 环境配置 相关操作1.环境安装pip install requestspip install bypy2.环境配置输入 bypy info浏览器红框中的网址,获得授权码,并粘贴该授权操作只能访问 百度网盘中 apps/bypy 文件夹下面的数据,(apps 中文名称为我的应用数据)3. 具体...

2019-03-13 18:12:59 2776

原创 python 使用 signal包 完成异步的进程控制

问题描述:python 进程一直在往内存写数据,需要不定时的保存 已经写入内存的数据。换句话说,程序常驻内存,通过指令完成不同的操作。达到像使用http 不同参数控制不同返回的效果解决方法 :使用 signal  控制进程方法的执行主要内容:1.我所能想到的方法;                   2.signal 的方法                   3. 实现代码 ...

2019-02-26 19:15:36 430

原创 python 使用 kafka 中 assert has_snappy(), 'Snappy decompression unsupported'的错误解决

任务场景 ,初次安装 kafka ,出现错误 主要是依赖package 未安装,conda安装 snappy 即可,命令如下:conda install python-snappy直接使用 “pip install python-snappy”安装 可能由于gcc 安装问题出现如下错误,需要首先解决gcc 问题,建议直接使用第一种安装方式即可解决问题...

2019-02-20 17:47:52 2132

原创 sympy 求导,并带入值进行计算

python 中的sympy 包能实现 表达式的求导。本文主要包含内容为:scipy 求导数 sympy  表达式求导 sympy 带入值计算 scipy求导scipy 能够直接对函数求导,缺点是需要无法保存导数的表达式,每次带入值计算,需要重复求导。import numpy as npfrom scipy.misc import derivativedef f(x)...

2019-02-19 10:16:43 25308 3

原创 预加载词向量的处理

在NLP任务中常常需要预加载的词向量,其中gensim 提供了现成的api供大家使用,但里面往往有些需求无法满足,例如未知词的处理。针对这些情况,自己根据gensim 的源码,进行了重构。本篇文章主要包含两部分内容:1.gensim 原始的调用方式;自己修改过的调用方式,本文词向量以腾讯提供的  Tencent_AILab_ChineseEmbedding.txt 为demogensim 加载...

2019-02-12 20:09:03 2336

原创 Bert 中文使用方式

最近尝试了bert来处理中文的NLP任务,发现效果很好。本人应用的主要方式是调用腾讯AILab 实验室开源的bert-as-service代码,bert-as-service 的git地址该项目的api和demo 非常详细。按照过程能很快完成bert的调用。下面说一下我的使用流程。环境配置安装tensorflow 安装package pip install bert-serving...

2019-01-30 13:16:08 23763 49

原创 python2.7 出现UnicodeDecodeError 错误

python2.7 出现UnicodeDecodeError的错误,例如UnicodeDecodeError: 'ascii' codec can't decode byte 0xe9 in position 0: ordinal not in range(128)主要解决办法是 import sys reload(sys) sys.setdefaultencoding('ut...

2019-01-24 14:25:12 477

原创 python json 数据解析失败:json.decoder.JSONDecodeError: Expecting property name enclosed in double quotes

s ="[{u'\u62bd\u5956': 1.0}]"s = "{u'lat': 61.190495, u'lng': -149.86884}"在使用json解析字符串上述类型的字符串时,json.loads()总是解析失败,错误如下:json.decoder.JSONDecodeError: Expecting property name enclosed in double ...

2019-01-22 16:35:19 8412

原创 程序员靠谱的那些事

刚工作一年,工作上很多事情和原本想的都很不一样,很多地方特别是工作态度都需要认真反省,今天说一下我应该怎样变的靠谱:       第一要诚实,自己水平怎么样,就是怎么样,不能贪功,合理规划自己的工作内容       第二是沟通,把事情交给你做,不可能不存在困难,碰到困难应该怎么样解决,沟通至关重要。例如技术实力不够,应该请教;如果是外部因素阻碍,应该找能解决他的人,例如公司部门很多,跨部门...

2019-01-19 15:33:21 206

fasttext java 版本

fasttext java 版本,可以进行 文本分类,以及词向量的训练

2018-11-13

jdk1.7+api+英文版

我试过了能用,jdk1.7+api+英文版的

2014-05-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除