2019年06月_liuzh(少昊)

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创动手实践bert+BiLstm+crf

网上大部分都是使用ChinaPeoplesDailyNerCorpus语料做的，真正应用到自已的语料和需求中还是有一些坑，这里整理记录一下首先明确语料需要处理成什么格式，贴图理解一下这里面需要搞清楚几点，我们的语料最小粒度是字级别的，然后每句话结束会有一个空行（当年踩过的坑），后面的标记简单科普一下，专业人士直接跳过，大O表示非实体，B-ORD表示机构开头第一个字，I-ORD表示中间，有些预...

2019-06-26 17:08:06 18742 19

原创解决终端运行代码导包问题ModuleNotFoundError: No module named 'qmp'

问题简述：pycharm运行没有问题的代码，终端运行提示提示导包问题先来看看目录结构执行命令cd ....../BlueRunSpider/qmp/function/spider/goose3_GASPpython3 main.py 错误信息Traceback (most recent call last): File "main.py", line 4, in <m...

2019-06-21 11:12:24 3949 1

原创 Xpath根据标签包裹的内容定位标签

需求：根据内容 “北京” 定位span标签，然后点击xpath语法：self.driver.find_element_by_xpath('//span[contains(text(), "北京")]').click()

2019-06-21 10:52:21 2405

转载批量读取数据next_batch()简单实现

def next_batch(train_data, train_target, batch_size): index = [ i for i in range(0,len(train_target)) ] np.random.shuffle(index); batch_data = []; batch_target = []; for i...

2019-06-19 14:45:28 1652

原创 src标签动态传入图片地址

2019-06-14 16:09:04 3950

原创 TensorFlow 多标签转化为one-hot

import tensorflow as tfdef main(): NUM_CLASSES = 2 # 2分类 labels = [0, 1, 1, 0, 1, 0, 1, 0] # sample label batch_size = tf.size(labels) # get size of labels : 8 labels = tf.expand_...

2019-06-14 11:21:13 1485

原创提取html网页正文信息

最近陆陆续续尝试了一些解析html的方法，场景不同，说不好孰优孰劣，请自行选择版本一（goose）：py2版本： https://github.com/grangier/python-goosepy3版本：https://github.com/goose3/goose3版本二（boilerpipe）：https://github.com/misja/python-boilerpipe版...

2019-06-11 18:52:35 3638

原创 Python爬虫解决乱码问题

问题原因：爬取的所有网页无论何种编码格式，都转化为utf-8格式进行存储，与源代码编码格式不同所以出现乱码。目前大部分都是utf-8格式或者ISO-8859-1，一部分是gbk格式（会出现乱码），国内网页还没有看到别的编码格式，欢迎补充指正！简单科普一下：　　UTF-8通用性比较好，是用以解决国际上字符的一种多字节编码，它对英文使用8位（即一个字节），中文使用24位（三个字节）来编码。U...

2019-06-04 12:08:30 4687

原创使用pymysql查询数据库，将结果保存为列表并获取指定元素下标

from pymysql import *from qmp.config import *def main(): conn = connect(host=HOST, port=3306, database=DATABASE, user=USER, password=PASSWORD, charset='utf8') cs1 = conn...

2019-06-04 10:31:17 11468

原创查看网页源码的编码格式

需求：解析网页数据时偶尔会出现乱码，这是由于编码格式不对导致的，这时我们就需要知道网页源码的编码方式解决办法：以http://stock.jrj.com.cn/2018/12/04000025448047.shtml为例使用谷歌浏览器打开网页右键—>检查点击Console输入document.charset，然后回车运行结果...

2019-06-03 13:04:39 6345

深度学习基础

第一、深度学习需要大量的训练数据集第二、训练深度神经网络需要大量的算力可能要花费数天、甚至数周的时间，才能使用数百万张图像的数据集训练出一个深度网络。所以深度学习通常需要强大的GPU服务器来进行计算全面管理的分布式训练与预测服务——比如谷歌 TensorFlow 云机器学习平台

2019-04-13

数据挖掘基础

机器学习的应用场景非常多，可以说渗透到了各个行业领域当中。医疗、航空、教育、物流、电商等等领域的各种场景。用在挖掘、预测领域：应用场景：店铺销量预测、量化投资、广告推荐、企业客户分类、SQL语句安全检测分类… 用在图像领域：应用场景：街道交通标志检测、人脸识别等等用在自然语言处理领域：应用场景：文本分类、情感分析、自动聊天、文本检测等等当前重要的是掌握一些机器学习算法等技巧，从某个业务领域切入解决问题。

2019-04-13

机器学习基础

2019-04-13

数据结构基础

如果将开发程序的过程比喻为作战，我们码农便是指挥作战的将军，而我们所写的代码便是士兵和武器。那么数据结构和算法是什么？答曰：兵法！我们可以不看兵法在战场上肉搏，如此，可能会胜利，可能会失败。即使胜利，可能也会付出巨大的代价。我们写程序亦然：没有看过数据结构和算法，有时面对问题可能会没有任何思路，不知如何下手去解决；大部分时间可能解决了问题，可是对程序运行的效率和开销没有意识，性能低下；有时会借助别人开发的利器暂时解决了问题，可是遇到性能瓶颈的时候，又不知该如何进行针对性的优化。如果我们常看兵法，便可做到胸有成竹，有时会事半功倍！同样，如果我们常看数据结构与算法，我们写程序时也能游刃

2019-04-13

python爬虫基础

那么对于一些中小型的公司，没有如此大的用户量的时候，他们该怎么办呢？ 1.1 数据的来源去第三方的公司购买数据(比如企查查) 去免费的数据网站下载数据(比如国家统计局) 通过爬虫爬取数据人工收集数据(比如问卷调查) 在上面的来源中：人工的方式费时费力，免费的数据网站上的数据质量不佳，很多第三方的数据公司他们的数据来源往往也是爬虫获取的，所以获取数据最有效的途径就是通过爬虫爬取

2019-04-13

前端基础知识

HTML是 HyperText Mark-up Language 的首字母简写，意思是超文本标记语言，超文本指的是超链接，标记指的是标签，是一种用来制作网页的语言，这种语言由一个个的标签组成，用这种语言制作的文件保存的是一个文本文件，文件的扩展名为html或者htm。

2019-04-13

Flask项目详情

Flask诞生于2010年，是Armin ronacher（人名）用 Python 语言基于 Werkzeug 工具箱编写的轻量级Web开发框架。 Flask 本身相当于一个内核，其他几乎所有的功能都要用到扩展（邮件扩展Flask-Mail，用户认证Flask-Login，数据库Flask-SQLAlchemy），都需要用第三方的扩展来实现。比如可以用 Flask 扩展加入ORM、窗体验证工具，文件上传、身份验证等。Flask 没有默认使用的数据库，你可以选择 MySQL，也可以用 NoSQL。其 WSGI 工具箱采用 Werkzeug（路由模块），模板引擎则使用 Jinja2。这两个也是 Flask 框架的核心。

2019-04-13

django项目

B2B (Business to Business)是指进行电子商务交易的供需双方都是商家(或企业、公司)，她(他)们使用了互联网的技术或各种商务网络平台，完成商务交易的过程。电子商务是现代 B2B marketing 的一种具体主要的表现形式。

2019-04-13

django基础

在前后端分离的应用模式中，后端仅返回前端所需的数据，不再渲染HTML页面，不再控制前端的效果。至于前端用户看到什么效果，从后端请求的数据如何加载到前端中，都由前端自己决定，网页有网页的处理方式，App有App的处理方式，但无论哪种前端，所需的数据基本相同，后端仅需开发一套逻辑对外提供数据即可。在前后端分离的应用模式中，前端与后端的耦合度相对较低。在前后端分离的应用模式中，我们通常将后端开发的每个视图都称为一个接口，或者API，前端通过访问接口来对数据进行增删改查。

2019-04-13

python高级Linux|tcp|线程

1991 年林纳斯（Linus）就读于赫尔辛基大学期间，对 Unix 产生浓厚兴趣，尝试着在Minix 上做一些开发工作因为 Minix 只是教学使用，因此功能并不强，林纳斯经常要用他的终端仿真器（Terminal Emulator）去访问大学主机上的新闻组和邮件，为了方便读写和下载文件，他自己编写了磁盘驱动程序和文件系统，这些在后来成为了 Linux 第一个内核的雏形，当时，他年仅 21 岁！林纳斯利用 GNU 的 bash 当做开发环境，gcc 当做编译工具，编写了 Linux 内核，一开始 Linux 并不能兼容 Unix 即 Unix 上跑的应用程序不能在 Linux 上跑，即应用程序与内核之间的接口不一致一开始 Linux 只适用于 386，后来经过全世界的网友的帮助，最终能够兼容多种硬件

2019-04-13

Python高级HTTP|Mysql

域名是什么呢? 我们在访问一台服务器的时候, 需要记住该服务器的IP地址, 由于IP地址不利于人们记忆, 所以推出的域名技术. 域名是由一串用点分隔的名字组成的 Internet 上某一台计算机或计算机组的名称, 用于在数据传输时标识计算机的位置. 域名可以用来表示一个单位、机构或可以利用个人在 Internet上的确定的名称或位置. 域名是惟一的. 客户可以利用这个名字找寻有关的产品和服务信息. DNS 是什么呢？由于我们用域名来标识计算机的位置, 但是我们前面讲过, 网络上标识主机的唯一标识是IP地址, 所以就需要记录一下, 一个域名和IP地址的对应关系, 这个对应关系就存储在DNS服务器中, 当我们向DNS发出请求时, DNS会返回给我们域名所对应的IP地址.

2019-04-13

python基础

python基础入门，Python的作者，Guido von Rossum（吉多·范·罗苏姆，中国Python程序员都叫他龟叔），荷兰人。1982年，龟叔从阿姆斯特丹大学获得了数学和计算机硕士学位。然而，尽管他算得上是一位数学家，但他更加享受计算机带来的乐趣。用他的话说，虽然拥有数学和计算机双料资质，他总趋向于做计算机相关的工作，并热衷于做任何和编程相关的事情。

2019-04-13

斯坦福大学 2014 机器学习教程

Machine Learning(机器学习)是研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域，它主要使用归纳、综合而不是演绎。在过去的十年中，机器学习帮助我们自动驾驶汽车，有效的语音识别，有效的网络搜索，并极大地提高了人类基因组的认识。机器学习是当今非常普遍，你可能会使用这一天几十倍而不自知。很多研究者也认为这是最好的人工智能的取得方式。在本课中，您将学习最有效的机器学习技术，并获得实践，让它们为自己的工作。更重要的是，你会不仅得到理论基础的学习，而且获得那些需要快速和强大的应用技术解决问题的实用技术。最后，你会学到一些硅谷利用机器学习和人工智能的最佳实践创新。

2019-01-16

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人