自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

天才幻想家

一位来自长治的IT新人

  • 博客(51)
  • 收藏
  • 关注

转载 研究生初学机器学习的几点建议

通过我自己的这大半年的接触和了解,结合找工作需要现对于如何入门机器学习提几点自己的看法。如果你以后要想干算法工程师、机器学习工程师,数据挖掘工程师。那么请你好好看一下我下面说的话。============================================================================总路线先学机器学习,再学深度学习(实验...

2019-08-15 19:28:20 1941

转载 重磅 | 完备的 AI 学习路线,最详细的资源整理!

今天一早看到了 Datawhale 推送的一篇文章,总结了非常全面的关于 AI 的学习资料,作者是 Datawhale,ApacheCN,AI 有道和黄海广博士联合整理贡献的,可谓是非常良心了,如果大家有想入门学习 AI 的,可以来看下这些资料,希望对你有所帮助哈。转载来源 公众号:Datawhale阅读本文大概需要 13 分钟。【导读】本文由知名开源平台,AI 技...

2019-05-06 10:00:33 744

原创 药监局瑞数分析采集

2023版药监局NMPA数据采集js逆向分析

2023-04-06 14:00:11 1250 5

转载 2021-06-24

根据2020年StackOverflow开发者调查报告,Python是世界上最受欢迎的语言之一,排名仅次于Rust和TypeScript。更令人惊讶的是,Python是开发人员最想尝试的语言。如果你是一位使用Python的开发人员,而且希望提高自己的技术水平,或者你想学习Python,那么你可来对地方了。本文将为你献上25个最佳GitHub代码库。1、最佳Python代码库 Python开发资源大全:Python框架、库、软件以及资源精选列表。 (https://github.co

2021-06-24 17:59:53 240

原创 【database】数据从oracle导入mysql

【database】数据从oracle导入mysql# coding=utf-8# author:Yanimport cx_Oracleimport pymysqlimport osimport time# 说明:本脚本用于Oracle与MySQL之间的数据迁移# 注意:源表与目标表字段数量必须一致# 使用:脚本默认是从MySQL迁移到Oracle,如果想从Oracle迁移到MySQL,修改from_conn,to_conn,from_conn_type,to_conn_type就

2021-02-05 09:51:09 303

原创 【Kafka】python创建kafka的生产者和消费者

关于kafka的只是信息自行百度,很多博客写的很好 不再赘述。安装:pip install pykafka (pykafka是)pip install kafka-python直接上代码:1、发送消息(produce)def send_topic_msg(json_data): producer = KafkaProducer( ...

2020-03-11 15:03:51 1848 1

转载 如何实践一个完整的数据挖掘项目

机器学习项目:1、抽象成数学问题(明确问题)2、获取数据3、特征预处理与特征选择4、训练模型与调优5、模型诊断6、模型融合(非必须) 大部分机器学习项目死在第1步和第2步,平时我们说的机器学习,指的是3、4、5这3步,实践中,其实最难的是业务理解这一步,业务理解OK了,后面的一切都有章可循。NLP项目:1、获取语料: 已有语...

2019-11-25 10:36:21 785

转载 非常全面的Pandas入门教程

pandas是基于NumPy的一种数据分析工具,在机器学习任务中,我们首先需要对数据进行清洗和编辑等工作,pandas库大大简化了我们的工作量,熟练并掌握pandas常规用法是正确构建机器学习模型的第一步。目录如何安装pandas 如何导入pandas库和查询相应的版本信息 pandas数据类型 series教程 dataframe教程 小结1. 如何安装Pandas最常用...

2019-11-21 16:00:08 1003

转载 机器学习数学精华:高等数学/线性代数/概率论与数理统计

高等数学:https://mp.weixin.qq.com/s/E3aG62Zhabobur0x4gtjtw 线性代数:https://mp.weixin.qq.com/s/kmpH2HdaktM4r_KeP7-Bhg概率论与数理统计:https://mp.weixin.qq.com/s/-8yGFlglR_NHRSGrjh5g5A...

2019-11-04 20:38:38 452

转载 关于Http协议,你必须要知道的

引言HTTP协议是Hyper Text Transfer Protocol(超文本传输协议)的缩写,是用于从万维网服务器传输超文本到本地浏览器的传送协议。HTTP 是基于 TCP/IP 协议通信协议来传递数据(HTML 文件, 图片文件, 查询结果等)。它不涉及数据包(packet)传输,主要规定了客户端和服务器之间的通信格式,默认使用80端口。一、Http的特点1.简单快速:客户...

2019-10-21 13:50:32 208

转载 【Django】Python的Django框架-数据库查询(增删改查)

创建项目django-admin startproject django_model创建应用python manage.py startapp model配置应用 model, 编辑 django_model/settings.py 文件:INSTALLED_APPS = [ 'django.contrib.admin', 'django.contrib.aut...

2019-09-27 11:21:22 989

原创 Django学习1:简单开发流程

1、django-admin startproject my_blog_test1建立工程2、python manage.py startapp myblog建立应用3、设置setting,修改数据库、设置时间、注册app等4、编写数据库模型,编写models.py,迁移数据库(如果是mysql,要在应用下的__init__.py下添加pymysql.install_as_MyS...

2019-08-29 17:05:48 140

原创 滑动验证码识别----解决天眼查自动登录问题

滑动验证码验证如下图所示:解决这个问题的思路:1、获取无缺口和有缺口的两张图片,即:下图所示:2、对比两张图片的像素点,像素点差值超过一定值即可视为缺口点(这里对比像素点时最好将开始的那一部分截取出来不对比,因为滑块滑动的距离肯定不会为0)。3、找到缺口之后计算活动距离,并模拟人工滑动滑块。有了这个思路之后贴一下核心代码:截取图片(首先需要定位到图片的位置并获...

2019-06-11 10:18:59 6314 27

原创 算法图解笔记

第一章二分查找算法:解释及原理:二分查找是一种查找算法,需要输入列表必须是有序的。如果要查找的元素在列表中则返回所在的位置,否则返回None。假设你想一个1-100之间的数字,某人每次猜测后会知道所猜的数字是大了还是小了,如果直接从1开始猜那么至少要猜n次(n是你想的数字,这实际上是简单查找)。如果从中间也就是50开始猜,那么无论大小都已经排除掉一半的数字,接着再从剩下的一半数...

2019-06-11 09:53:06 228

转载 了解LSTM网络

递归神经网络人类不会每时每刻都开始思考。当你阅读这篇文章时,你会根据你对之前单词的理解来理解每个单词。你不要扔掉所有东西,然后再从头开始思考。你的想法有持久性。传统的神经网络无法做到这一点,这似乎是一个主要的缺点。例如,假设您想要对电影中每个点发生的事件进行分类。目前尚不清楚传统神经网络如何利用其对电影中先前事件的推理来告知后者。循环神经网络解决了这个问题。它们是带有循环的网络,允许信...

2019-05-20 10:52:38 299

转载 完全图解RNN、RNN变体、Seq2Seq、Attention机制

本文主要是利用图片的形式,详细地介绍了经典的RNN、RNN几个重要变体,以及Seq2Seq模型、Attention机制。希望这篇文章能够提供一个全新的视角,帮助初学者更好地入门。一、从单层网络谈起在学习RNN之前,首先要了解一下最基本的单层网络,它的结构如图:输入是x,经过变换Wx+b和激活函数f得到输出y。相信大家对这个已经非常熟悉了。二、经典的RNN结构(N vs N)...

2019-05-16 20:17:13 179

转载 使用kettle跨库同步表数据

表数据输入(数据来源)先new一个转换点击kettle的左上角的 + 号, 选择“转换在右边的的选项卡里,点击“核心对象”,选择“输入”,再找到“表输入”,选择拖拽到右边的空白处。双击此图标里面有一个数据连接,此时我们需要点击“新建,创建一个数据库连接,并填入相应的数据,点击“测试”,会提示连接是否成功,如果成功,则点击“确认”,进行下一步这里可能弹出缺少驱动包,自己...

2019-04-12 15:12:02 477 1

转载 神经网络入门

人工智能的底层模型是"神经网络"(neural network)。许多复杂的应用(比如模式识别、自动控制)和高级模型(比如深度学习)都基于它。学习人工智能,一定是从它开始。什么是神经网络呢?网上似乎缺乏通俗的解释。前两天,我读到 Michael Nielsen 的开源教材《神经网络与深度学习》(Neural Networks and Deep Learning),意外发现里面的解释非常...

2019-03-19 18:29:22 195

转载 NLP第1课:中文自然语言处理的完整机器处理流程

2016年全球瞩目的围棋大战中,人类以失败告终,更是激起了各种“机器超越、控制人类”的讨论,然而机器真的懂人类吗?机器能感受到人类的情绪吗?机器能理解人类的语言吗?如果能,那它又是如何做到呢?带着这样好奇心,本文将带领大家熟悉和回顾一个完整的自然语言处理过程,后续所有章节所有示例开发都将遵从这个处理过程。首先我们通过一张图来了解 NLP 所包含的技术知识点,这张图从分析对象和分析内容两个不同的...

2019-03-16 10:11:18 503

原创 win安装pyspider遇到的一个问题记录

问题描述:pip无错误安装完成pyspider之后,验证时在cmd中输入pyspider all出现如下图错误:百度了好久才知道:这是WsgiDAV发布了版本 pre-release 3.x导致的,版本太高不兼容,所以把版本降下来就OK了。命令:python -m pip install wsgidav==2.4.1然后pyspider all测试一下,没问题的话如下...

2019-03-11 14:22:01 453

转载 史上最强NLP知识集合:知识结构、发展历程、导师名单

转载自 数据简化DataSimp 作者 秦陇纪 郭一璞 编辑 量子位 报道 | 公众号 QbitAI本篇推送包含三篇文章,《自然语言处理技术发展史十大里程碑》《语言处理NLP知识结构》《自然语言处理NLP国内研究方向机构导师》总共超过20000字,量子位建议先码再看。自然语言处理技术发展史十大里程碑文|秦陇纪,参考|黄昌宁、张小凤、Sebatian Ruder...

2019-02-21 20:12:59 1704 1

原创 关键词提取算法:TF-IDF、TextRank、LSA/LSI/LDA

首先推荐一下在NLP方面比较好的一个博客,本文也是参考这位博主写的。链接点这里。本文主要对TF-IDF代码重新改写了一下,几个函数顺序调用比原文较好理解一点,对于刚入NLP的我们来说用来学习是挺好的,如果掌握的就可以尝试用面向对象的思想来写。LSA/LSI/LDA这集中算法应为没有接触过,多以暂时不介绍,想了解的可以参考原文。如果有时间我再去理解修改。1、关键词提取技术概述:      相...

2019-02-19 17:53:42 11299 2

原创 jieba入门2

import jieba'''添加自定义词典1、载入词典: a、开发者可以指定自己自定义的词典,以便包含 jieba 词库里没有的词。虽然 jieba 有新词识别能力,但是自行添加新词可以保证更高的正确率 b、用法: jieba.load_userdict(file_name),file_name 为文件类对象或自定义词典的路径 c、词典格式和 dict.txt...

2019-02-18 17:04:03 211

转载 NLP深度学习:近期趋势的总体概述

作者:Elvis Saravia编译:Bot编者按:Elvis Saravia是“国立清华大学”(台湾)的博士生,主要研究NLP和情感计算。今年8月,Tom Youn等人更新了去年发表在IEEE杂志上的重磅文章《Recent Trends in Deep Learning Based Natural Language Processing》,总结了到今年为止,基于深度学习的自然语言处理(N...

2019-02-18 10:10:29 657

转载 从基础到实战的 NLP 学习清单

先mark起来 作为一名自然语言初学者,在 NLP 里摸爬滚打了许久,一些心得,请壮士收下。谈一下自己探索过的摸爬滚打过的方法,大致可以分为二种。第一种,在实践中学习,找一个特定的任务,譬如文本分类、情感分析等。然后以做好任务为导向的去挖掘和这一个任务相关的知识点。由于没有系统的学习,肯定会遇到各种各样的拦路虎问题,当遇到不懂的概念时,利用百度/谷歌查阅相关资料去理解学习这个概...

2019-02-16 15:49:04 528

转载 TF-IDF与余弦相似性的应用(三):自动摘要

有时候,很简单的数学方法,就可以完成很复杂的任务。这个系列的前两部分就是很好的例子。仅仅依靠统计词频,就能找出关键词和相似文章。虽然它们算不上效果最好的方法,但肯定是最简便易行的方法。今天,依然继续这个主题。讨论如何通过词频,对文章进行自动摘要(Automatic summarization)。        如果能从3000字的文章,提炼出150字的摘要,就可以为读者节省大量阅读时间。由...

2019-02-13 14:10:01 261

转载 TF-IDF与余弦相似性的应用(二):找出相似文章

        今天,我们再来研究另一个相关的问题。有些时候,除了找到关键词,我们还希望找到与原文章相似的其他文章。比如,"Google新闻"在主新闻下方,还提供多条相似的新闻。为了找出相似的文章,需要用到"余弦相似性"(cosine similiarity)。下面,我举一个例子来说明,什么是"余弦相似性"。为了简单起见,我们先从句子着手。  句子A:我喜欢看电视,不喜欢看电影。...

2019-02-13 13:59:42 185

转载 TF-IDF与余弦相似性的应用(一):自动提取关键词

        这个问题涉及到数据挖掘、文本处理、信息检索等很多计算机前沿领域,但是出乎意料的是,有一个非常简单的经典算法,可以给出令人相当满意的结果。它简单到都不需要高等数学,普通人只用10分钟就可以理解,这就是我今天想要介绍的TF-IDF算法。让我们从一个实例开始讲起。假定现在有一篇长文《中国的蜜蜂养殖》,我们准备用计算机提取它的关键词。         一个容易想到的思路,就是找到出...

2019-02-13 13:51:15 1782

转载 推荐算法概述(基于用户的协同过滤算法、基于物品的协同过滤算法、基于内容的推荐算法)

        目前推荐系统研宄的主要趋势是从单一的、独立的推荐系统算法逐渐向组合多种推荐算法形成混合式的综合推荐算法方向发展,越来越多的结合用户标签数据、社交网络数据、上下文信息、地理位置信息。群体推荐也成为一个目前非常热门的主题。并且有些也用到了推荐系统领域之外的算法,如模糊集概念、人工智能领域的遗传算法,贝叶斯网络等。当然也有一些研究还在不断深入挖掘传统、经典的如基于内容过滤、协同过滤等算法...

2019-02-13 11:06:37 2259

原创 使用nltk分析文本情感

        情感分析是NLP最受欢迎的应用之一。情感分析是指确定一段给定的文本是积极还是消极的过程。下面的代码是借用其他博主的, 但是我对代码的输入数据格式以及类型做了一个简单解析供大家参考。另外我发在nltk在处理中文时的切分统计不是很好,中文和英文文本的情感分析思路上是一致的,不同之处在于中文在分析前需要进行分词,然后才能用nltk处理(nltk 的处理粒度一般是词),因此在切分中文的时候...

2019-01-30 10:28:50 13019 2

转载 python的nltk中文使用和学习资料汇总帮你入门提高

nltk是一个python工具包, 用来处理和自然语言处理相关的东西. 包括分词(tokenize), 词性标注(POS), 文本分类, 等等现成的工具.1. nltk的安装资料1.1: 黄聪:Python+NLTK自然语言处理学习(一):环境搭建  http://www.cnblogs.com/huangcong/archive/2011/08/29/2157437.html   这个图...

2019-01-30 09:45:43 1034

转载 Python自然语言处理(NLP)入门教程(NLTK库的安装和使用)

本文简要介绍Python自然语言处理(NLP),使用Python的NLTK库。NLTK是Python的自然语言处理工具包,在NLP领域中,最常使用的一个Python库。什么是NLP?简单来说,自然语言处理(NLP)就是开发能够理解人类语言的应用程序或服务。这里讨论一些自然语言处理(NLP)的实际应用例子,如语音识别、语音翻译、理解完整的句子、理解匹配词的同义词,以及生成语法正确完整句子...

2019-01-25 17:41:03 2614

转载 cnn初探

转载自:http://www.cnblogs.com/fydeblog/p/7450413.html前言这篇博客主要讲解卷积神经网络(CNN)的历史、模块、特点和架构等等1. CNN历史CNN最早可以追溯到1968Hubel和Wiesel的论文,这篇论文讲述猫和猴的视觉皮层含有对视野的小区域单独反应的神经元,如果眼睛没有移动,则视觉刺激影响单个神经元的视觉空间区域被称为其感受野(R...

2019-01-25 17:00:04 271

原创 jieba入门

1、三种分词模式    HMM是隐马尔可夫模型,默认是启用的jieba.lcut以及jieba.lcut_for_search直接返回 listimport jiebacontent = '小明是毕业于中国科学院的大学生'# 精确模式(试图将句子最精确地切开,适合文本分析)res2 = jieba.cut(content, cut_all=False, HMM=True)p...

2019-01-25 11:14:16 720

转载 EOS.IO 技术白皮书

EOS.IO 技术白皮书草案:2017 年 6 月 26 日 (@dayzh (https://steemit.com/@dayzh))摘要: EOS.IO 软件引入一种新的区块链架构设计,它使得去中心化的应用可以横向和纵向的扩展。 这通过构建一个仿操作系统的方式来实现,在它之上可以构建应用程序。 该软件提供帐户、身份验证、数据库、异步通信和跨越数百个 CPU 内核或集群的应用程序调度。 ...

2019-01-07 10:39:47 955

原创 搭建EOS浏览器

安装php 7.2sudo add-apt-repository ppa:ondrej/phpsudo apt-get updatesudo apt-get install php7.2安装PHP扩展sudo apt-get install php7.2-mongodbsudo apt-get install php7.2-clisudo apt-get install p...

2018-12-27 18:45:57 1249 3

转载 机器学习之文本分类(附带训练集+数据集+所有代码)

我本次对4类文本进行分类((所有截图代码和数据集最后附带免费下载地址))主要步骤: 1.各种读文件,写文件 2.使用jieba分词将中文文本切割 3.对处理之后的文本开始用TF-IDF算法进行单词权值的计算 4.去掉停用词 5.贝叶斯预测种类文本预处理: 除去噪声,如:格式转换,去掉符号,整体规范化 遍历的读取一个文件下的每个文本中文分词中文分词就是...

2018-12-07 11:50:34 10913 14

原创 LD算法

         编辑距离,又称 Levenshtein 距离(莱文斯坦距离也叫做 Edit Distance),是指两个字串之间,由一个转成另一个所需的最少编辑操作次数,如果它们的距离越大,说明它们越是不同。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。这个概念是由俄罗斯科学家 Vladimir Levenshtein 在 1965 年提出来的,所以也叫Levensh...

2018-09-12 14:20:16 2768

原创 python简单操作excle

Python操作Excle文件:使用xlwt库将数据写入Excel表格,使用xlrd 库从Excel读取数据。 从excle读取数据存入数据库1、导入模块: import xlrd2、打开excle文件:data = xlrd.open_workbook('excel.xls')3、获取表、行/列值、行/列数、单元值获取一个工作表:table = data.sh...

2018-09-12 10:33:19 459

转载 redis的安装配置(转)

redis学习教程:http://www.redis.net.cn/tutorial/3501.html一、下载windows版本的Redis去官网找了很久,发现原来在官网上可以下载的windows版本的,现在官网以及没有下载地址,只能在github上下载,官网只提供linux版本的下载官网下载地址:http://redis.io/downloadgithub下载地址:https:...

2018-07-27 14:55:38 135

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除