刘小航9527-CSDN博客

原创 python爬取豆瓣影评—《恶人传》

前面爬取过毒液影评，这段时间很多人找我要源码，我之前的代码已经遗失，所以重新做了下，分享给大家，希望帮到大家

2019-07-21 16:55:31 816 2

CA-RNN: Using Context-Aligned Recurrent Neural Networks for Modeling Sentence Similarity（CA-RNN：使用上下文对齐的递归神经网络建模句子相似度）论文通读：1. 概要：大多数RNN专注于基于当前句子对隐藏状态进行建模，而在隐藏状态生成过程中，其他句子的上下文信息却没有得到很好的研究。在本文中，我们提出了...

2019-12-08 11:25:44 777

原创 rnn神经网络概述-tensorflow实现

cnn卷积神经网络在前面已经有所了解了，目前博主也使用它进行了一个图像分类问题，基于kaggle里面的food-101进行的图像识别，识别率有点感人，基于数据集的关系，大致来说还可行。下面我就继续学习rnn神经网络。...

2019-11-27 19:50:40 663

原创 BM25-nlp经典算法

前两天老师给我们讲解了BM25算法，其中包括由来解释，以及算法推导，这里我再将其整理，这里我不讲解之前的BIM模型，大家有兴趣可以自行了解。Okapi BM25:一个非二值的模型bm25 是一种用来评价搜索词和文档之间相关性的算法，它是一种基于概率检索模型提出的算法。举个例子：我们查询关键词red apple ，将其分词为red 和apple，我们在我们的1000个文档中分别索引这两个词，但...

2019-11-14 15:44:19 1259

原创 python-tensorflow 实现图像分类

前段时间，日剧《轮到你了》大火，作为程序员的我，看到了另外一个程序员—二阶堂，他的生活作息，以及饮食规律，让我感同身受，最让我感触的是他做的AI聊天机器人，AI菜品分析机器人，AI罪犯分析。　这让作为程序员的我突然萌生了一股攀比和一种激情，我也得做一个出来（小声bb，都得尝试下）：于是，我想从相对简单的做起，《AI菜品分析机器人》：AI菜品分析机器人：1.建立语料库，爬取各个网站的对话和问...

2019-11-01 15:48:56 5397 2

原创 tensorflow—卷积神经网络（例：手写数字识别）

传统的神经网络中的不足：上图中，我们需要计算的权值非常多，就需要大量的样本训练，我们模型的构建，需要根据数据的大小来建立，防止过拟合，以及欠拟合。因此，cnn算法通过感受野和权值共享减少了神经网络需要训练的参数个数，如图：所以，卷积算法操作如下：上述卷积核，步长是14=11+11+11+11，依此类推。...

2019-08-03 20:28:55 578

原创 datawhale爬虫

下面直接爬取所有数据：import requestsfrom bs4 import BeautifulSoupurl='http://www.dxy.cn/bbs/thread/626626#626626'headers = {'Accept':'*/*','Accept-Encoding': 'gzip, deflate','Accept-Language': 'zh-CN','C...

2019-07-30 19:01:14 512

原创机器学习—神经网络-代价函数,反向传播算法

在神经网络中，我们了解了，神经网络类似于一个一个的节点，当我们输入数据，然后就会有一输出，输出再作为输入，直到最后输出，其中，隐藏层的节点，我们如何知道其算法呢？神经网络代价函数：下面是逻辑回归的代价函数的一般式：我们不再只有一个y输出单元了，我们有k个输出。所以化简为：其中，h（x）为输出的k维向量，（h（x））i表示输出的k维向量中的第i个元素，...

2019-07-30 18:59:50 532

原创机器学习—神经网络入门

神经网络基础在机器学习中，线性回归和逻辑回归用来处理相关问题很简单，当我们的数据集如下时：例如一个房屋有很多的特征时，特征点有多个，算出如上的逻辑回归，此时函数很复杂，所以这不是一个好办法。于是，我们使用神经网络算法可以来实现这个大量的特征算法：神经元：它有输入神经，输出神经，简而言之，神经元是一个计算的东西，它通过用户输入，然后输出，传递到其他节点，所以计算过程如下：神经网络如...

2019-07-26 21:07:00 1153

原创机器学习—梯度下降

单变量梯度下降在我们学习的损失函数后，梯度下降就是求解损失函数的一种方法我们求出θ0，θ1，使得J(θ0，θ1)最小，同理也是求出θ0，θ1，θ2，θ3…θn使得J(θ0，θ1，θ2，θ3…θn)最小，或者局部最小值，我们仅用θ0，θ1，使得J(θ0，θ1)最小，这个例子来求解：例如图中，我们随机取一点，然后再通过这点找到向下的最佳点，一直迭代到数据最佳，即为我们得出的最小损失函数：但...

2019-07-26 17:37:54 314

原创机器学习—代价函数

学习了机器学习，以及tensorflow，想将这个重点思想回顾，复习——基于吴恩达的机器学习。代价函数代价函数（Cost Function ）是定义在整个训练集上的，是所有样本误差的平均，也就是损失函数的平均。例如，在上述例子中，有6个数据，我们简称数据集，我们应该如何找到一个合适的函数来拟合这6个数据呢？即h=kx+b，我们应该怎么找到表示k和b最合适的数据，使得训练集中的数据更加准确...

2019-07-26 15:16:04 864

原创 tensorflow—图,会话,常量,变量

tensorflow基础篇图(graphs),会话(session),张量(tensor),变量(Variable),节点（operation）1.在会话中执行任务2.在图中表示计算任务3.张量（tensor）表示数据4.变量（Variable）来维护数据5.节点（operation）表示一次计算结果tensorflow是一个编程系统，使用图graphs来表示计算任务，图graphs...

2019-07-25 14:53:26 382

原创 python写入与读取数据库

前面记录了python基础，记录了爬虫，记录了数据可视化，记录了机器学习，下面将了解python web，博主看资料学习了2天才看懂了如何通过python读写数据库：1.相关模块的导入与安装：import mysql.connector,pymysqlfrom flask import Flaskfrom flask_sqlalchemy import SQLAlchemy这里采用fl...

2019-03-20 21:16:08 5831

原创 python中cookie获取

在前面学习中，cookie似乎一直没通，今天发现了一个能够读取网页cookie的代码，分享给大家，同时记录，今天写代码遇到的一系列问题：python遇到‘\u’开头的unicode编码web信息中常会遇到“\u…\u…”类型的字符。首先’\u‘开头就基本表明是跟unicode编码相关的，“\u”后的16进制字符串是相应汉字的utf-16编码。python里decode()和encode()为我...

2019-03-08 18:58:18 4264 4

原创 datawhale爬虫（ip代理相关知识）

ip什么是ip：网络之间互连的协议外文是Internet Protocol的外语缩写，中文缩写为“网协”。缩写为IP。网络之间互连的协议也就是为计算机网络相互连接进行通信而设计的协议。在因特网中，它是能使连接到网上的所有计算机网络实现相互通信的一套规则，规定了计算机在因特网上进行通信时应当遵守的规则。任何厂家生产的计算机系统，只要遵守IP协议就可以与因特网互连互通。IP地址具有唯一性，根据用户...

2019-03-06 19:59:10 892

原创 datawhale爬虫（seleniumm自动登陆163邮箱）

selenium 是一套完整的web应用程序测试系统，包含了测试的录制（selenium IDE）,编写及运行（Selenium Remote Control）和测试的并行处理（Selenium Grid）。Selenium的核心Selenium Core基于JsUnit，完全由JavaScript编写，因此可以用于任何支持JavaScript的浏览器上。selenium可以模拟真实浏览器，自动...

2019-03-05 17:05:44 1590

原创机器学习中回归分析（多变量）

1.波士顿房产数据（完整）通过如下代码即可获取所有数据from sklearn.datasets import load_bostonboston = load_boston()print (boston.DESCR)波士顿房价数据集（Boston House Price Dataset）包含对房价的预测，以千美元计，给定的条件是房屋及其相邻房屋的详细信息。该数据集是一个回归问...

2019-03-05 16:34:22 4295

原创机器学习中回归分析（测评函数）

机器学习之回归分析（测评函数）1.波士顿房产数据scikit-learn自带波士顿房价集,该数据集来源于1978年美国某经济学杂志上。该数据集包含若干波士顿房屋的价格及其各项数据，每个数据项包含14个数据，分别是房屋均价及周边犯罪率、是否在河边等相关信息，其中最后一个数据是房屋均价。下面给出其代码：from sklearn import datasets from ...

2019-03-03 17:24:40 1433

原创机器学习中回归分析（单变量算法实现）

简单线性回归（单变量实现）1.自动生成数据：　这里我们使用make_regression生成回归模型数据。几个关键参数有n_samples（生成样本数）， n_features（样本特征数），noise（样本随机噪音）和coef（是否返回回归系数）。例子代码如下：import numpy as npimport matplotlib.pyplot as plt#%matplotlib i...

2019-03-02 18:09:30 2658

原创 datawhale爬虫（正则入门and第一个爬虫）

1.正则表达式基础介绍Python 的 re 模块（Regular Expression 正则表达式）提供各种正则表达式的匹配操作，和 Perl 脚本的正则表达式功能类似，使用这一内嵌于 Python 的语言工具，尽管不能满足所有复杂的匹配情况，但足够在绝大多数情况下能够有效地实现对复杂字符串的分析并提取出相关信息。Python 会将正则表达式转化为字节码，利用 C 语言的匹配引擎进行深度优先的...

2019-03-02 17:04:23 1570

原创 datawhale爬虫（get与post）

学习get与post请求1.get获取请求：代码如下：requests：import requestsurl="http://www.baidu.com"x = requests.get(url)#获取请求x.encoding=x.apparent_encoding#网页内容转码，不会出现乱码print(x.text)#查看源码print(x.headers)联网状态下结果为：...

2019-02-28 22:54:37 1435

原创机器学习中回归分析(基础)

机器学习之回归算法梳理(一基础)一.机器学习的基本概念1.有监督学习和无监督学习：如图：根据上述图片，我们可以分析到，如图所示的散点图分布，通过分类和权值计算，最后用一条直线来划分，构成一个估计准确的数据，这就是机器学习中需要计算的问题，怎么构成最优解，这就是一个有监督过程，同时也是我们的机器学习中的回归问题，同理，如果我们不需要分析数据，所有数据都是一样的话，这就是无监督学习，无监督学习也...

2019-02-28 14:41:44 5228

原创 python制作词云图

介绍个高大上的玩意：词云图下面教大家如何制作词云图，代码很简单：先给出代码：import jiebafrom wordcloud import WordCloud, ImageColorGeneratorfrom matplotlib import pyplot as pltfrom PIL import Imageimport numpy as npwith open(...

2018-12-13 22:30:07 3526

原创 python中代理IP的获取

在学习爬虫时，我们经常遇到被限制ip的情况如何获取，下面我们介绍如何获取免费ip的方法：用爬虫爬取其相关数据：我们采集的ip网址为：https://www.xicidaili.com/如图：下面分析其代码：from bs4 import BeautifulSoupimport requestsimport random导入上述模块即可；1.解析其网页：def get_i...

2018-12-12 21:42:48 7398

原创 c语言构造哈夫曼树-哈夫曼编码

构造哈夫曼树首先，我们需要了解哈夫曼树是什么：一．相关知识点路径：路径是指从一个节点到另一个节点的分支序列。路径长度：指从一个节点到另一个结点所经过的分支数目。，从根节点到a的分支数目是2，数的路径长度：树中所有结点的路径长度之和为树的路径长度PL 如图pl为10节点的权：给树的每个结点赋予一个具有某种实际意义的实数，我们称该实数为这个结点的权带权路径长度：从树根...

2018-12-05 14:59:59 26675 6

原创 css复杂选择器和其基础属性

css复杂选择器：1.父子选择器： <div> <span>123</span> </div> <span>456</span> <div> <span class="d

2018-12-02 22:28:44 3245

原创 css基础选择器和优先级

css基础选择器HTML是我们学习的框架，css是我们网页的样式，下面我会慢慢了解css等相关组成。在开始介绍之前，我先给出具体的相关代码：&lt;!DOCTYPE html&gt;&lt;html lang="en"&gt;&lt;head&gt; &lt;meta charset="UTF-8&quot

2018-11-30 23:23:57 3556

原创 HTML5表单基础

下面我们介绍表单，由于这里没有学习数据库相关知识，所以只能强行学习！！！在开始前我先介绍几个之前一直困惑着的问题：我们发现，当我们需要<这个符号的时候，一般来说都输出不了，这样就很难受了呀，所以，我了解到了：HTML编码：例如：以代码示例： &nbsp;为空格例如：<br/> 空...

2018-11-28 23:44:00 3511

原创 python布隆过滤器

python布隆过滤器的使用的与操作详细介绍布隆过滤器：布隆过滤器是一种概率空间高效的数据结构。它与hashmap非常相似，用于检索一个元素是否在一个集合中。它在检索元素是否存在时，能很好地取舍空间使用率与误报比例。正是由于这个特性，它被称作概率性数据结构首先，需要将布隆过滤器相关模块安装：1.pip3 install pybloom_live（直接打开命令提示符即可安装）2.pip3 ...

2018-11-27 22:13:00 4594

原创 HTML5相关布局

HTML5界面的相关基础布局：1.界面布局2.表格布局下面给出相关代码：<!DOCTYPE html><html lang="en"><head> <meta charset="UTF-8"> <title>第四次，布局等学习</title> <styl

2018-11-26 21:00:01 3800

原创微信小程序链接外部

最近也在学习创作微信小程序，我发现小程序可以搭建外部网页链接了：即：当我们创建了一个页面后：js json wxml即可在wxml 页面直接写入如下代码：&lt;!-- wxml --&gt;&lt;!-- 指向百度的web-view --&gt;&lt;web-view src="https://www.baidu.com/"&gt;&amp

2018-11-26 20:38:38 4998

原创 HTML5列表和块的相关

下面了解关于HTML5列表的制作和块：如下图列表分为有序列表，无序列表，嵌套列表，自定义列表，我们可以一一尝试输出，对比，给出代码如下：无序列表：&lt;br/&gt; disc:实体圆 circle:空心圆 square:方块实体 &lt;ul type="square"&gt; &lt;li&gt;w&a

2018-11-25 15:10:06 3141

原创 HTML5相关格式化，属性，链接与表格操作

我们初步了解了HTML5后，现在我们再进一步了解其相关的操作格式化：我们可以看到其作用，同时，我采用代码的形式输出：<!DOCTYPE html><html lang="en"><head> <meta charset="UTF-8"> <title>第二次</title>

2018-11-24 14:02:28 3269

原创初识HTML5

从今天开始了解HTML5，并且进入实战项目。首先关于编译器和一些环境我在这里就不介绍了。当我们打开编译器时（我这里选择的pycharm），选择网页时，会直接出现：&amp;amp;lt;!DOCTYPE html&amp;amp;gt;&amp;amp;lt;html lang=&amp;quot;en&amp;quot;&amp;amp;gt;&amp;amp;lt;he

2018-11-22 20:34:25 3404

原创 python下使用pip freeze >requirements.txt命令迁移模块

python下使用pip freeze >requirements.txt命令迁移模块今天我们介绍相关迁移模块。当我们使用python写了个程序后，需要将其安装在其他电脑上进行run，此时我们发现，在其他电脑上所使用的程序会出错，缺少模块。此时我们介绍pip freeze >requirements.txt命令：打开命令提示符，输入pip freeze >requirem...

2018-11-21 20:45:54 4688

原创 python中json文件读写

下面介绍json文件的相关操作我了解到Json，全名 JavaScript Object Notation，是一种轻量级的数据交换格式。Json最广泛的应用是作为AJAX中web服务器和客户端的通讯的数据格式。现在也常用于http请求中，所以对json的各种学习，是自然而然的事情。一. dumps 和 dump:dumps和dump 序列化方法dumps只完成了序列化为str，dum...

2018-11-02 12:31:40 5995 1

原创 python关于csv文件

今天我总结了python相关文件的存储，下面介绍这个较为常用的方法。1.csv文件的保存与读取第一步：导入csv模块，import csv第二步：相关数据的梳理，例如：我把相关的数据用列表储存下来，然后再进行保存，例如我下面保存的信息：student_list = []print(&quot;请输入名字&quot;)name=input()student_list.append(name)print(...

2018-10-31 19:48:09 3165

原创爬虫学习的具体学习

第一步解析页面解析界面需要发送请求，此时需要如下模块：import requestsfrom bs4 import BeautifulSoup上述模块即可分析出页面的具体源码下面具体介绍如何使用此模块：import requestsfrom bs4 import BeautifulSoupurl = 'http://www.4399.com/?hao360a'x = requ...

2018-10-16 17:47:35 3119

原创网络爬虫定时爬取的相关方法

关于python的定时爬取相关方法：虽然time模块的time.sleep()方法使程序休眠来达到定时任务的目的，这样也可以，但是总觉得不是那么的专业，所以就使用如下python的定时任务模块APScheduler：首先安装相关pip：pip install apscheduler安装完成后即可以使用相关模块：下面用一简单代码实现此模块的相关功能：import timefrom aps...

2018-10-13 15:43:51 6640

原创 python爬取黄石新闻网公告

下面我们使用python爬取黄石新闻的公告，练练手：代码如下可能比较繁琐（初学者）import csv, requestsfrom bs4 import BeautifulSoupimport reurl = 'http://www.hsdcw.com/class2012_l_0_0_180_1.html'x = requests.get(url)x.encoding=x.appa...

2018-09-24 10:35:27 3166

空空如也

空空如也