自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

古月哲亭

守住本心,做好自己。

  • 博客(498)
  • 收藏
  • 关注

原创 app = Flask(__name__)相关说明

#!/usr/local/bin/python# coding=utf-8 from flask import Flaskapp = Flask(__name__) @app.route('/')def hello_world(): return 'Hello World!' if __name__ == '__main__': app.run(host='0.0.0.0',port=9000)'''第4行,引入Flask类,Flask类实现了一个WSGI应用第5行,

2020-08-07 13:57:16 422

原创 PaddlePaddle预训练模型大合集

PaddlePaddle预训练模型大合集,还有官方使用说明书添加链接描述https://blog.csdn.net/paddlepaddle/article/details/93858863

2020-08-06 17:10:37 500

原创 pip加速+百度镜像|清华镜像

针对pip install 安装包下载慢的问题,主要pip install直接安装是从国外拉取安装包。解决办法,加国内镜像,比如百度 https://mirror.baidu.com/pypi/simplepip install lac -i https://mirror.baidu.com/pypi/simple比如清华镜像:https://pypi.tuna.tsinghua.edu.cn/simplepip install numpy -i https://pypi.tuna

2020-07-21 11:21:23 850

原创 文本相似度、文本匹配、文本聚类

1 1在Keras的Embedding层中使用预训练的word2vec词向量:https://blog.csdn.net/u012052268/article/details/90238282本文的部分工作、代码、数据共享到gethub网站《使用多层级注意力机制和keras实现问题分类》:https://github.com/xqtbox/question-classification-with-multi-level-attention-mechanism-and-keras2 QA match/文

2020-07-20 15:21:09 439

原创 摩诃止观下

摩诃止观卷第六上第二体思假入空破法遍者。即为三。一明思假。二明体观。三明其位。思假者。谓贪嗔痴慢。此名钝使亦名正三毒。历三界为十。又约三界凡九地。地地有九品。合八十一品。皆能润业受三界生。初果犹七反未尽。如灯灭方盛。虽复有欲非妇不淫。虽复有嗔垦地不夭。虽复有愚不计性实。道共戒力任运如是。故称正烦恼也。不同见惑澜漫无方触境生着。称思惟者从解得名。初观真浅犹有事障。后重虑真此惑即除。故名思惟惑也。数...

2019-06-24 13:44:19 1338

转载 支持向量机通俗导论(理解SVM的三层境界)

            支持向量机通俗导论(理解SVM的三层境界)作者:July 。致谢:pluskid、白石、JerryLead。说明:本文最初写于2012年6月,而后不断反反复复修改&优化,修改次数达上百次,最后修改...

2019-04-22 15:09:23 2162

转载 统计学习方法总结

统计学习方法总结 阅读目录(Content)0. 相关知识点0x1: 监督学习1. 模型假设空间2. 生成模型与判别模型的联系与区别 3. 学习策略4. 分类问题与回归问题5. 利用模型进行预测和分析0x2:模型评估与模型选择1. 训练误差与测试误差2. 过拟合与模型选择0x3:正则化与交叉验证 - 缓解过拟合的发生1. 正则化 - 结构风险最小化策略...

2019-04-14 11:13:07 1578

转载 老子【道德经】全文翻译(全81章)

图片发自简书App  老子道德经全文翻译(全81章)阅读:【老子·第一章】道可道,非常道。名可名,非常名[1]。无名天地之始;有名万物之母。故常无,欲以观其妙;常有,欲以观其徼。此两者,同出而异名,同谓之玄。玄之又玄,众妙之门。【注释】:[1]通常译为"可以说出来的道,就不是永恒不变的道",强调道是不可言说的。但这样的翻译,等于一开始就剥夺了老子言说真道的可能...

2019-04-14 11:01:23 4247

转载 剑指offer-python代码解释-习题解答-空白请点击阅读更多

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/u012505432/article/details/52071537 </div> <link rel="stylesheet" href="https://csdnimg.cn/release/phoenix/templat...

2019-04-08 16:37:04 1250 1

原创 使用交叉验证去验证逻辑回归

import pandas as pd Data=pd.read_csv ('C:\\Dataset.csv',index_col='SNo')feature_cols=['A','B','C','D','E']X=Data[feature_cols]Y=Data['Status'] Y1=Data['Status1'] # predictions from elsewhereY2=Data['Status2'] # predictions from elsewherefrom skle

2021-04-01 10:15:14 39 1

原创 机器学习算法中的准确率、精确率、召回率和F值

机器学习算法中的准确率、精确率、召回率和F值:https://www.jianshu.com/p/d400a821ef3d

2021-03-31 14:34:49 29

转载 软考中级 软件设计师资料(考点分析+复习笔记+历年真题+电子版课本)

软考中级 软件设计师资料(考点分析+复习笔记+历年真题+电子版课本):https://blog.csdn.net/weixin_44754772/article/details/113763165软件设计师是软考中级职称,相比高级的难度而言,中级难度较低,每个人花些时间都能顺利通过的,考试分为上午的选择题和下午的综合题,这里跟大家分享一些自己备考时使用的资料和经验 一、先对自己进行评估: 因为每个人的知识点掌握情况和学校教学内容的不一致,这里以我个人情况进行说明,大家做个参考就行: 大家先了解一下软

2021-03-29 16:26:35 52

原创 Hotel booking酒店预订——数据分析与建模

Hotel booking酒店预订——数据分析与建模:https://zhuanlan.zhihu.com/p/196757364?utm_source=wechat_session写文章Hotel booking酒店预订——数据分析与建模(转载翻译自kaggle)海上泊舟数据分析师数据源:https://www.sciencedirect.com/science/article/pii/S2352340918315191字段解释:hotel 酒店is_canceled 是否取消lead_time 预

2021-03-22 09:17:05 227

原创 TIFF图像被转换为​​JPEG格式的图像

TIFF图像被转换为​​JPEG格式的图像。for name in glob.glob(root_dir+img_dir+'*.tif'): im = Image.open(name) name = str(name).rstrip(".tif") name = str(name).lstrip(root_dir) name = str(name).lstrip(img_dir) im.save(final_root_dir+ img_dir+ name

2021-03-09 16:37:32 25

转载 monk js_对象检测-使用Monk AI进行文档布局分析

原文链接:https://blog.csdn.net/weixin_26752075/article/details/108494230 monk js 计算机视觉 (Computer Vision) 介绍 (Introduction) This is an article on how Objec

2021-03-09 16:32:22 82

原创 Docx:docx.opc.exceptions.PackageNotFoundError: Package not found at

Docx:docx.opc.exceptions.PackageNotFoundError: Package not found at:https://blog.csdn.net/python__reported/article/details/106318330 Docx:d

2021-03-04 15:39:57 52

原创 python下载文件获取文件名

import osimport timefrom urllib.parse import unquoteimport requestsheaders = { 'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3', 'Accept-Encoding': 'gzip, defla

2021-03-04 13:49:09 70

原创 python_读取 doc,docx,pdf,txt, excel

#!/usr/bin/env python# -*- coding: utf-8 -*-import docxfrom pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreterfrom pdfminer.converter import TextConverterfrom pdfminer.layout import LAParamsfrom pdfminer.pdfpage import PDFPagefrom cSt

2021-03-04 13:45:28 62 2

原创 以太网和路由设置,内网和外网同时上

第一步,查看自己内网的地址,网络与internet设置,更改适配器选项,出现下面的页面点击内网,右击WLan,点击状态点击详细信息:记录网关信息:第二步:查找路由器设置Win10Home,永久路由丢失问题例如:route -p add 192.168.65.0 mask 255.255.255.0 10.128.0.2 metric 1route -p add 192.168.0.0 mask 255.255.0.0 192.168.8.1 metric 2其中:110.128.0

2021-02-24 10:43:41 53

原创 执行Dockerfile构建基础镜像,建立python工作环境

Docker Dockerfile:https://www.runoob.com/docker/docker-dockerfile.html核心内容:指令详解COPY复制指令,从上下文目录中复制文件或者目录到容器里指定路径。格式:COPY [--chown=<user>:<group>] <源路径1>... <目标路径>COPY [--chown=<user>:<group>] ["<源路径1>",...

2021-02-22 16:59:30 53

原创 一键离线下载python安装包:

Python 第三方库 批量下载安装包,离线批量安装Python第三方库:https://www.cnblogs.com/qiuyubai/p/14084501.html核心代码:一键生成安装包的索引文件requirements.txtpip freeze >requirements.txtpip download -d ./ -r requirements.txt全部代码#方式1:单个下载#单个包下载方式一:pip download 你的包名 -d "下载的路径文件夹"#例如

2021-02-22 10:13:01 69

原创 OpenCV和tesseract-ocr的安装及使用

tesseract-ocr的安装及使用:https://blog.csdn.net/qq_37193537/article/details/81335165三步解决python PermissionError: [WinError 5]拒绝访问的情况:https://www.jb51.net/article/185218.htmlhttps://www.pianshen.com/article/43251972054/Failed loading language ‘chi_sim’ Tessera

2021-02-05 15:55:44 42

原创 python将pdf中的每一页转化为图片保存

import PyPDF4import pikepdfimport fitz#对pdf文件进行简单的解密 def jiemi(pdfpath): new_pdfpath = pdfpath[:-4] + '_new' + pdfpath[-4:] fp = open(pdfpath, "rb+") pdfFile = PyPDF4.pdf.PdfFileReader(fp) # pdf 解密 if pdfFile.isEncrypted:

2021-02-04 16:25:09 98 1

原创 OCR数据处理(上篇)+OCR数据处理(下篇)

OCR数据处理(上篇):https://mp.weixin.qq.com/s/u956SljZEvInqMQCCTcEkgOCR数据处理(下篇):https://mp.weixin.qq.com/s/KWoh4pGapYh8S5T7VHNrTQ

2021-02-02 17:25:13 74 1

原创 达观数据:文档智能审阅系统

https://www.bilibili.com/video/BV1dk4y1y75W?from=search&seid=10707410997793429063 文档智能审阅系统

2021-01-29 11:37:35 62

原创 :批量制作档案表,要从excel表格中将每个人的数据导入到docx档案

https://www.pythonf.cn/read/149081 Python自动将Excel数据填充到word的指定位置,Word,中具体代码如下:#!/usr/bin/env python3# -*- coding: utf-8 -*-from docxtpl import DocxTemplatefrom openpyxl import load_workbookimport osdef replace(obj): if obj is None: o

2021-01-29 08:56:15 43

原创 哈工大同义词林cilin.txt以句子相似函数

#!/usr/bin/env python3# coding: utf-8# File: sim_cilin.py# Author: lhy<lhy_in_blcu@126.com,https://huangyong.github.io># Date: 18-4-27import codecsimport jieba.posseg as psegfrom fuzzywuzzy import fuzzimport synonymsclass SimCilin: de

2021-01-27 17:21:10 54

原创 打破场景边界,PDFlux助你多领域表格提取

打破场景边界,PDFlux助你多领域表格提取:https://zhuanlan.zhihu.com/p/70092369

2021-01-27 14:17:33 31

原创 文档智能综述

1 万字综述:行业知识图谱构建最新进展微信公众号链接:https://mp.weixin.qq.com/s/iVIoaZxhS1EyC2etRnBf4Q2 高翔:智能文档处理与办公自动化微信公众号链接:https://mp.weixin.qq.com/s/M6iv_NAnhibT36Y27BSSeQ3 迪奥NLP丨企业智能文本审查应用微信公众号链接:https://mp.weixin.qq.com/s/Yu9ZSHcjkA2rRywbiaNVYQ4 微软研究院AI头条: 新一代多模态文档理解预

2021-01-27 11:09:46 38

转载 解决pip安装报错:is not a supported wheel on this platform

解决pip安装报错:is not a supported wheel on this platform:https://blog.csdn.net/sty945/article/details/105200436/ 原因1 你下载安装的包不是当前平台所支持的 原因2 你下载的包

2021-01-27 10:17:51 111

原创 pkuseg-python的postag.zip在不能联网的服务器上的解决办法

关于pkuseg-python的基本介绍和使用:pkuseg.pkuseg( postag = True)时,会触发download.py文件的下载命令,从github中下载,进而会导致服务器报错,如下进而在pkuseg文件下打开download.py和__init__.py文件修改postag.zip的文件位置,建议线提前下载好该压缩包,然后再去修改。...

2021-01-27 09:36:46 61

原创 在服务器上安装anaconda遇到的问题总结

1 安装anaconda需要一些安装包,需要提前备准备好,比如bunzip2, gcc编译等软件。cd /anacondaRElyanacondaREly文件夹下放了anaconda所依赖的安装包,切换到该路径rpm -Uvh *.rpm --nodeps --force安装好anaconda 需要的依赖环境就可以开始安装anaconda下载好对应版本的anaconda(官网下载),比如 Anaconda3-5.1.0-Linux-x86_64.sh切换到含有该文件的路径,执行下面的命令

2021-01-27 09:27:18 76

原创 Python中实现模糊匹配的魔法库:FuzzyWuzzy

参考链接:https://mp.weixin.qq.com/s/5qzPb7HOCfRRGJICYUsAOQFuzzyWuzzy一个简单易用的模糊字符串匹配工具包。让你轻松解决烦恼的匹配问题!前言在处理数据的过程中,难免会遇到下面类似的场景,自己手里头获得的是简化版的数据字段,但是要比对的或者要合并的却是完整版的数据(有时候也会反过来)最常见的一个例子就是:在进行地理可视化中,自己收集的数据只保留的缩写,比如北京,广西,新疆,西藏等,但是待匹配的字段数据却是北京市,广西壮族自治区,新疆维吾尔自治

2021-01-25 14:24:08 130

原创 Python字符串模糊匹配库FuzzyWuzzy

Python字符串模糊匹配库FuzzyWuzzy在计算机科学中,字符串模糊匹配(fuzzy string matching)是一种近似地(而不是精确地)查找与模式匹配的字符串的技术。换句话说,字符串模糊匹配是一种搜索,即使用户拼错单词或只输入部分单词进行搜索,也能够找到匹配项。因此,它也被称为字符串近似匹配。字符串模糊搜索可用于各种应用程序,例如:拼写检查和拼写错误纠正程序。例如,用户在Google中键入“Missisaga”,将返回文字为“Showing results for mi

2021-01-25 13:45:51 218

原创 中文近义词工具包:Synonyms

SynonymsChinese Synonyms for Natural Language Processing and Understanding.更好的中文近义词:聊天机器人、智能问答工具包。synonyms可以用于自然语言理解的很多任务:文本对齐,推荐算法,相似度计算,语义偏移,关键字提取,概念提取,自动摘要,搜索引擎等。Table of Content:InstallUsageQuick Get StartValuationBenchmarkStatementReferenc

2021-01-25 13:40:55 142

原创 MYSQL返回指定时间间隔函数DATE_SUB和TO_DAYS详解

现在北京时间:2021年1月25日 11点select time,content from shsqsj where time >= DATE_SUB(Now(),INTERVAL 2 DAY);返回的数据是:2021年1月23日23日11点到现在时刻(2021年1月25日 11点)的数据。更多请参考 DATE_SUB函数现在北京时间:2021年1月25日 11点‘’‘select * from shsqsj where TO_DAYS(NOW())-TO_DAYS(time) &l

2021-01-25 11:02:01 89

原创 python用schedule模块实现定时任务

python用schedule模块实现定时任务import scheduleimport time def test(): print("I'm working...")def test2(): print("I'm working... in job2") # 每10分钟执行一次job函数schedule.every(10).minutes.do(test)# 每10秒执行一次job函数schedule.every(10).seconds.do(test)#

2021-01-22 15:46:03 60

原创 mysql查询时间段内的数据

mysql查询时间段内的数据-- 今天 select fullName,addedTime from t_user where to_days(addedTime) <= to_days(now()); -- 昨天 select fullName,addedTime from t_user where to_days(NOW()) - TO_DAYS(addedTime) <= 1; -- 近7天 select fullName,addedTime from t_user w

2021-01-22 15:07:18 165

原创 python实现拆分、合并、删除pdf

PDF(Portable Document Format),中文名称便携文档格式是我们经常会接触到的一种文件格式,文献、文档…很多都是PDF格式。它以格式稳定的优势,使得我们在打印、分享、传输过程中能够最优的保持原有色彩和格式。PDF是以PostScript语言图像模型为基础的一种文档格式,它在格式的稳定性方面虽然具有很大优势。但是,在可编辑性方面却为使用者引入了另外一个困扰。例如,在文档的分割、合并、剪切、转换、编辑等方面PDF就有些捉襟见肘了。Adobe Reader、福昕阅读器、熊猫PDF…经常用到

2021-01-22 10:05:15 87

转载 我国政务大数据政策的文本分析:推进逻辑与未来进路

原文地址:https://www.sohu.com/a/238844423_99983415摘要:[目的/意义]从已颁布政策文件中找出我国推进政务大数据发展和应用的内在逻辑, 为优化未来的政策路径提供对策建议。[方法/过程]通过政府门户网站收集189条有效政策文本, 综合运用词频分析软件和人工方式提取关键词, 采用CiteSpace 5.0分析政策文本时间分布、关键词共现网络、高频关键词及其共现关系。[结果/结论]我国推进政务大数据发展和应用的过程可分为地方初探、顶层设计、全面探索三个阶段;热点领域包括政

2021-01-21 14:11:53 503

空空如也

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除