- 博客(14)
- 资源 (22)
- 收藏
- 关注
转载 SQL优化的30条建议
1、应尽量避免在 where 子句中使用!=或<>操作符,否则将引擎放弃使用索引而进行全表扫描。2、对查询进行优化,应尽量避免全表扫描,首先应考虑在 where 及 order by 涉及的列上建立索引。3、应尽量避免在 where 子句中对字段进行 null 值判断,否则将导致引擎放弃使用索引而进行全表扫描,如:select id from t where num is nul...
2019-09-29 19:11:41 1595
原创 python递归爬取整站链接,广度优先,主要用于监控网站是否发布了新的文章
除了js脚本跳转之外,无论是绝对链接,相对链接,还是有层级的相对链接(如../../xxx.htm),都可以很好的整理成完整的URL,其中leve是定义页面层级深度的。要想真正使用,还有好多路要走,比如:过滤页面类型,数据去重,多线程,批处理爬取多个网站等。# coding:utf-8# 网页url采集爬虫,给定网址,以及存储文件,将该网页内全部网址采集下,可指定文件存储方式import...
2019-09-30 02:32:06 2705
转载 mysql使用中文的全文索引(注意只有5.7.6以上的版本支持)
其实全文检索在MySQL里面很早就支持了,只不过一直以来只支持英文。缘由是他从来都使用空格来作为分词的分隔符,而对于中文来讲,显然用空格就不合适,需要针对中文语义进行分词。这不,从MySQL 5.7开始,MySQL内置了ngram全文检索插件,用来支持中文分词,并且对MyISAM和InnoDB引擎有效。在使用中文检索分词插件ngram之前,先得在MySQL配置文件里面设置他的分词大小,比如,...
2019-09-29 19:28:03 1707
转载 52 个有用的机器学习与预测接口盘点
随着基于人工智能与机器学习的应用如雨后春笋般不断涌现,我们也看到有很多提供类似功能的 API 悄悄登上了舞台。 API 是用于构建软件应用的程序、协议以及工具的组合;本文是对2015 中这个列表的修正与完善,移除了部分被废弃的 API ;我们也添加了最近由 IBM、Google、Microsoft 这些大厂发布的 API 。所有的 API 可以根据应用场景进行分组:人脸与图片识别。 文...
2019-09-28 19:50:46 1665
转载 介绍一些比较方便好用的爬虫工具和服务
在之前介绍过很多爬虫库的使用,其中大多数也是 Python 相关的,当然这些库很多都是给开发者来用的。但这对一个对爬虫没有什么开发经验的小白来说,还是有一定的上手难度的。现在市面上其实也出现了非常多的爬虫服务,如果你仅仅是想爬取一些简单的数据的话,或者懒得写代码的话,其实利用这些工具还是可以非常方便地完成爬取的,那么本文就来总结一下一些比较实用的爬取服务和工具,希望在一定程度上能够帮助你摆脱数据爬...
2019-09-28 19:30:48 7110
转载 支持中文的deepdive:斯坦福大学的开源知识抽取工具(三元组抽取)
一、DeepDive简介deepdive帮助你从更少的结构化数据和统计推断中提取结构化的知识而无需编写任何复杂的机器学习代码。deepdive是一种新的数据管理系统,能够解决提取、整合型,并在一个单一的系统预测问题,它允许用户快速构建复杂的端到端的数据管道。二、DeepDive优势deepdive让开发者只需要关心实体特征,不需要在乎算法。相比之下,其他机器学习系统需要开发者认为,聚类算法...
2019-09-28 19:15:35 6311
原创 关于BoilerpipeExtractor解析html乱码问题
网上给出的方案基于jsoup来获取body的byte流,但是写出的东西压根没有用到jsoup,getEmptyConnection(url)?private String extractContent(String url) throws Exception { InputStream inputStream = new ByteArrayInputStream(getEmptyConne...
2019-09-28 18:48:30 1555
转载 AI公司Diffbot推出世界上最大的知识图谱,数据量是谷歌的500倍
Diffbot是一家小而美的初创公司,该公司通过计算机视觉、机器学习和人工智能来处理Web页面,目标是实现整个网页的“机器可读”。昨日,他们发布了据称是世界上有史以来最大的人类知识数据库。据该公司称,Diffbot知识图谱比谷歌的知识图谱大500倍,并且每天都在自主增长。它已有超过1万亿个事实和100亿个实体,并且每月增长1.3亿个事实。众所周知,知识图谱可以让用户更快更简单地发现新的...
2019-09-28 15:42:24 1847
原创 CentOS6安装最新版MySQL8, 以及远程连接
1、去https://repo.mysql.com/查找对应的RPM,yum仓库下载MySQL:sudo yum localinstall https://repo.mysql.com//mysql80-community-release-el7-1.noarch.rpm (请注意centos对应的版本号)2、yum安装MySQL:sudo yum install mysql-...
2019-09-27 15:58:21 1492
转载 还在一个个写规则?来了解下爬虫的智能化解析吧!
爬虫是做什么的?是帮助我们来快速获取有效信息的。然而做过爬虫的人都知道,解析是个麻烦事。比如一篇新闻吧,链接是这个:https://news.ifeng.com/c/7kQcQG2peWU,页面预览图如下:我们需要从页面中提取出标题、发布人、发布时间、发布内容、图片等内容。一般情况下我们需要怎么办?写规则。那么规则都有什么呢?怼正则,怼 CSS 选择器,怼 XPath。我们需要对标...
2019-09-24 09:36:20 1767
转载 如何全网智能识别文章页,识别正文和标题
一、神箭手对这个问题的处理先说说神箭手的情况吧,这个问题我们很久之前就开始研究了,一直期待能做到一个优秀的效果,就像友商@Jerry黄大仙 说的一样,新闻场景中的正文标题识别确实是相对好做的,可以直接hard coding一些特征。因为新闻标题在页面中出现的地方是很有特点的,比如在title标签中大概率出现,比如在正文上面大概率有h1,h2等标签,比如下面大概率有作者,发布时间等部分。显然可以...
2019-09-24 09:21:22 3927
原创 MySQL定时执行脚本(计划任务)命令实例
登录mysql服务器mysql -u root -p查看event是否开启show variables like '%sche%'; 将事件计划开启set global event_scheduler =1;创建存储过程myPROdelimiter $$ #将语句的结束符号从分号;临时改为两个$$(可以是自定义)CREATE PROC...
2019-09-20 11:20:38 1849
转载 中国工程院院士高文ICTC演讲《国家新一代人工智能发展规划》
2018年10月24-26日,以“创新发展模式深化媒体融合”为主题的第二十六届媒体融合技术研讨会(ICTC2018)在杭州黄龙饭店举行。在24日举办的主题报告会上,中国工程院院士高文做了《国家新一代人工智能发展规划》为主题的演讲。ICTC由国家广播电视总局批准、中国广播电影电视社会组织联合会技术委员会、浙江省广播电影电视产业协会和华数数字电视传媒集团有限公司等单位共同举办,是广电领域最具影响力的国...
2019-09-20 09:17:38 2312
原创 windows下配置JAVA虚拟机以及环境变量
每次配置虚拟机都要手动输入太麻烦,特此记录一下。1.下载好需要的jdk版本并安装到指定的文件夹(安装过程简单) 举例:C:\jdk-132.安装完成后配置windows的环境变量:开始菜单-右键计算机-属性-高级系统设置-环境变量新建系统变量:变量名:JAVA_HOME变量值:C:\jdk-13新建系统变量:变量名:CLASSPATH变量值:.;%JAVA_...
2019-09-19 11:18:07 2601
WPBakery-Page-Builder-v6.6.0.zip
2021-04-28
2018-2019中国开发者调查报告
2019-03-15
华为adb手机驱动工具 官方版
2017-02-04
po,mo互转工具
2016-03-14
市场需求文档(MRD)写作方法与技巧(上)
2015-06-01
文档管理---Minidx
2007-11-18
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人