- 博客(10)
- 资源 (13)
- 收藏
- 关注
原创 动手实践bert+BiLstm+crf
网上大部分都是使用ChinaPeoplesDailyNerCorpus语料做的,真正应用到自已的语料和需求中还是有一些坑,这里整理记录一下首先明确语料需要处理成什么格式,贴图理解一下这里面需要搞清楚几点,我们的语料最小粒度是字级别的,然后每句话结束会有一个空行(当年踩过的坑),后面的标记简单科普一下,专业人士直接跳过,大O表示非实体,B-ORD表示机构开头第一个字,I-ORD表示中间,有些预...
2019-06-26 17:08:06 18742 19
原创 解决终端运行代码导包问题ModuleNotFoundError: No module named 'qmp'
问题简述:pycharm运行没有问题的代码,终端运行提示 提示导包问题先来看看目录结构执行命令cd ....../BlueRunSpider/qmp/function/spider/goose3_GASPpython3 main.py 错误信息Traceback (most recent call last): File "main.py", line 4, in <m...
2019-06-21 11:12:24 3949 1
原创 Xpath根据标签包裹的内容定位标签
需求:根据内容 “北京” 定位span标签,然后点击xpath语法:self.driver.find_element_by_xpath('//span[contains(text(), "北京")]').click()
2019-06-21 10:52:21 2405
转载 批量读取数据next_batch()简单实现
def next_batch(train_data, train_target, batch_size): index = [ i for i in range(0,len(train_target)) ] np.random.shuffle(index); batch_data = []; batch_target = []; for i...
2019-06-19 14:45:28 1652
原创 src标签动态传入图片地址
<img src="{{ url_for('static', filename='image/') }}{{ context.projectname + '.png' }}" >
2019-06-14 16:09:04 3950
原创 TensorFlow 多标签转化为one-hot
import tensorflow as tfdef main(): NUM_CLASSES = 2 # 2分类 labels = [0, 1, 1, 0, 1, 0, 1, 0] # sample label batch_size = tf.size(labels) # get size of labels : 8 labels = tf.expand_...
2019-06-14 11:21:13 1485
原创 提取html网页正文信息
最近陆陆续续尝试了一些解析html的方法,场景不同,说不好孰优孰劣,请自行选择版本一(goose):py2版本: https://github.com/grangier/python-goosepy3版本:https://github.com/goose3/goose3版本二(boilerpipe):https://github.com/misja/python-boilerpipe版...
2019-06-11 18:52:35 3638
原创 Python爬虫解决乱码问题
问题原因:爬取的所有网页无论何种编码格式,都转化为utf-8格式进行存储,与源代码编码格式不同所以出现乱码。目前大部分都是utf-8格式或者ISO-8859-1,一部分是gbk格式(会出现乱码),国内网页还没有看到别的编码格式,欢迎补充指正!简单科普一下: UTF-8通用性比较好,是用以解决国际上字符的一种多字节编码,它对英文使用8位(即一个字节),中文使用24位(三个字节)来编码。U...
2019-06-04 12:08:30 4687
原创 使用pymysql查询数据库,将结果保存为列表并获取指定元素下标
from pymysql import *from qmp.config import *def main(): conn = connect(host=HOST, port=3306, database=DATABASE, user=USER, password=PASSWORD, charset='utf8') cs1 = conn...
2019-06-04 10:31:17 11468
原创 查看网页源码的编码格式
需求:解析网页数据时偶尔会出现乱码,这是由于编码格式不对导致的,这时我们就需要知道网页源码的编码方式解决办法:以http://stock.jrj.com.cn/2018/12/04000025448047.shtml为例使用谷歌浏览器打开网页右键—>检查点击Console输入document.charset,然后回车运行结果...
2019-06-03 13:04:39 6345
深度学习基础
2019-04-13
数据挖掘基础
2019-04-13
机器学习基础
2019-04-13
数据结构基础
2019-04-13
python爬虫基础
2019-04-13
前端基础知识
2019-04-13
Flask项目详情
2019-04-13
django项目
2019-04-13
django基础
2019-04-13
python高级Linux|tcp|线程
2019-04-13
Python高级HTTP|Mysql
2019-04-13
python基础
2019-04-13
斯坦福大学 2014 机器学习教程
2019-01-16
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人