python
文章平均质量分 54
学无止境还得学
技术更新很快,只有自己不断学习,不断进步,才能与时俱进。
展开
-
python下载批量图片
批量图片的抓取原创 2022-11-16 17:00:45 · 934 阅读 · 2 评论 -
selenium的简单基础教学与代码的使用
基于python的selenium库实现的爬虫技术一、简介及作用我们模拟登陆用的是selenium库,selenium是一个自动化测试工具,在爬虫中通常用来进行模拟登陆。它支持各种浏览器,包括 Chrome,Safari,Firefox 等主流界面式浏览器,同时Selenium也支持多种语言开发,比如 Java,C,Ruby、Python等等。selenium可以模拟登录网站进去,获取到网站分析,用简单的html就可以分析标签得到我们想要的数据,避免了动态加密json格式等的不容易抓取的网站,缺点就是原创 2021-12-16 17:35:01 · 322 阅读 · 2 评论 -
NLP文本生成
自然语言生成任务,如文本摘要和图像标题的生成。seq2seq的模型原理 https://blog.csdn.net/Irving_zhang/article/details/78889364 </div> <link rel="stylesheet" href="https://csdnimg.cn/release/phoenix/template/css/ck_htmledit_views-f57960eb32.css">原创 2021-05-11 10:49:51 · 1747 阅读 · 0 评论 -
Python_读取PDF文件文本内容
经常爬虫的小伙伴,或遇到一些PDF文件的处理,可能我们要下载这个文件,并要识别里面的文本内容,今天小汪就在这里给大家分享一下怎么识别pdf文件里面的文字;话不多说,直接上代码from pdfminer.converter import PDFPageAggregatorfrom pdfminer.pdfparser import PDFParser, PDFDocumentfrom pdfminer.layout import LTTextBoxHorizontal, LAParamsfr.原创 2021-03-03 17:24:31 · 771 阅读 · 3 评论 -
python下载pip install torch的方法
pip install torch出现错误首先使用Python的pip安装命令: pip install torch 出现错误解决办法:这时需要先下载pytorch包,根据自己的python版本选择。pytorch包链接:https://www.lfd.uci.edu/~gohlke/pythonlibs这个红的是我自己的python版本选择适合自己的Python版本的pytorch包进行下载,例如:torch-1.6.0-cp37-cp37m-win_amd64.whl在下载好之后将下载的原创 2020-10-21 11:22:44 · 20148 阅读 · 3 评论 -
2020-08-24
关键词摘取关键词提取就是从文本里面把跟这篇文章意义最相关的一些词语抽取出来。这个可以追溯到文献检索初期,关键词是为了文献标引工作,从报告、论文中选取出来用以表示全文主题内容信息的单词或术语,在现在的报告和论文中,我们依然可以看到关键词这一项。因此,关键词在文献检索、自动文摘、文本聚类/分类等方面有着重要的应用,它不仅是进行这些工作不可或缺的基础和前提,也是互联网上信息建库的一项重要工作本文介绍的是在文本中获取关键词的俩种方法1.TF-IDF2.Text-Rank下面介绍一些关于关键词抽取的常用和经原创 2020-08-24 17:33:35 · 380 阅读 · 0 评论 -
2020-08-20
NLP — 条件随机场CRF详解CRF定义这里定义只讲线性链随机场,针对自然语言处理领域的处理进行设计,因此这里只提线性链随机场定义:线性链条件随机场)设X = (X_1,X_2,X_3,…,X_n),Y=(Y_1,Y_2,Y_3,…,Y_n)均为线性链表示的随机变量序列,若在给定随机变量序列的条件下,随机变量序列Y的条件概率分布就构成条件随机场,即满足马尔可夫性P(Y_i|X,Y_1,Y_2,…,Y_{i-1},Y_{i+1},…,Y_n) = P(Y_i|X,Y_{i-1},Y_{i+1})则原创 2020-08-20 15:48:46 · 153 阅读 · 0 评论