2019年09月_才神

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

转载 SQL优化的30条建议

1、应尽量避免在 where 子句中使用!=或<>操作符，否则将引擎放弃使用索引而进行全表扫描。2、对查询进行优化，应尽量避免全表扫描，首先应考虑在 where 及 order by 涉及的列上建立索引。3、应尽量避免在 where 子句中对字段进行 null 值判断，否则将导致引擎放弃使用索引而进行全表扫描，如：select id from t where num is nul...

2019-09-29 19:11:41 1595

原创 python递归爬取整站链接，广度优先，主要用于监控网站是否发布了新的文章

除了js脚本跳转之外，无论是绝对链接，相对链接，还是有层级的相对链接（如../../xxx.htm），都可以很好的整理成完整的URL，其中leve是定义页面层级深度的。要想真正使用，还有好多路要走，比如：过滤页面类型，数据去重，多线程，批处理爬取多个网站等。# coding:utf-8# 网页url采集爬虫，给定网址，以及存储文件，将该网页内全部网址采集下，可指定文件存储方式import...

2019-09-30 02:32:06 2705

转载 mysql使用中文的全文索引（注意只有5.7.6以上的版本支持）

其实全文检索在MySQL里面很早就支持了，只不过一直以来只支持英文。缘由是他从来都使用空格来作为分词的分隔符，而对于中文来讲，显然用空格就不合适，需要针对中文语义进行分词。这不，从MySQL 5.7开始，MySQL内置了ngram全文检索插件，用来支持中文分词，并且对MyISAM和InnoDB引擎有效。在使用中文检索分词插件ngram之前，先得在MySQL配置文件里面设置他的分词大小，比如，...

2019-09-29 19:28:03 1707

转载 52 个有用的机器学习与预测接口盘点

随着基于人工智能与机器学习的应用如雨后春笋般不断涌现，我们也看到有很多提供类似功能的 API 悄悄登上了舞台。 API 是用于构建软件应用的程序、协议以及工具的组合；本文是对2015 中这个列表的修正与完善，移除了部分被废弃的 API ；我们也添加了最近由 IBM、Google、Microsoft 这些大厂发布的 API 。所有的 API 可以根据应用场景进行分组：人脸与图片识别。文...

2019-09-28 19:50:46 1665

转载介绍一些比较方便好用的爬虫工具和服务

在之前介绍过很多爬虫库的使用，其中大多数也是 Python 相关的，当然这些库很多都是给开发者来用的。但这对一个对爬虫没有什么开发经验的小白来说，还是有一定的上手难度的。现在市面上其实也出现了非常多的爬虫服务，如果你仅仅是想爬取一些简单的数据的话，或者懒得写代码的话，其实利用这些工具还是可以非常方便地完成爬取的，那么本文就来总结一下一些比较实用的爬取服务和工具，希望在一定程度上能够帮助你摆脱数据爬...

2019-09-28 19:30:48 7110

转载支持中文的deepdive：斯坦福大学的开源知识抽取工具（三元组抽取）

一、DeepDive简介deepdive帮助你从更少的结构化数据和统计推断中提取结构化的知识而无需编写任何复杂的机器学习代码。deepdive是一种新的数据管理系统，能够解决提取、整合型，并在一个单一的系统预测问题，它允许用户快速构建复杂的端到端的数据管道。二、DeepDive优势deepdive让开发者只需要关心实体特征，不需要在乎算法。相比之下，其他机器学习系统需要开发者认为，聚类算法...

2019-09-28 19:15:35 6311

原创关于BoilerpipeExtractor解析html乱码问题

网上给出的方案基于jsoup来获取body的byte流，但是写出的东西压根没有用到jsoup，getEmptyConnection(url)？private String extractContent(String url) throws Exception { InputStream inputStream = new ByteArrayInputStream(getEmptyConne...

2019-09-28 18:48:30 1555

转载 AI公司Diffbot推出世界上最大的知识图谱，数据量是谷歌的500倍

Diffbot是一家小而美的初创公司，该公司通过计算机视觉、机器学习和人工智能来处理Web页面，目标是实现整个网页的“机器可读”。昨日，他们发布了据称是世界上有史以来最大的人类知识数据库。据该公司称，Diffbot知识图谱比谷歌的知识图谱大500倍，并且每天都在自主增长。它已有超过1万亿个事实和100亿个实体，并且每月增长1.3亿个事实。众所周知，知识图谱可以让用户更快更简单地发现新的...

2019-09-28 15:42:24 1847

原创 CentOS6安装最新版MySQL8, 以及远程连接

1、去https://repo.mysql.com/查找对应的RPM，yum仓库下载MySQL：sudo yum localinstall https://repo.mysql.com//mysql80-community-release-el7-1.noarch.rpm （请注意centos对应的版本号）2、yum安装MySQL：sudo yum install mysql-...

2019-09-27 15:58:21 1492

转载还在一个个写规则？来了解下爬虫的智能化解析吧！

爬虫是做什么的？是帮助我们来快速获取有效信息的。然而做过爬虫的人都知道，解析是个麻烦事。比如一篇新闻吧，链接是这个：https://news.ifeng.com/c/7kQcQG2peWU，页面预览图如下：我们需要从页面中提取出标题、发布人、发布时间、发布内容、图片等内容。一般情况下我们需要怎么办？写规则。那么规则都有什么呢？怼正则，怼 CSS 选择器，怼 XPath。我们需要对标...

2019-09-24 09:36:20 1767

转载如何全网智能识别文章页，识别正文和标题

一、神箭手对这个问题的处理先说说神箭手的情况吧，这个问题我们很久之前就开始研究了，一直期待能做到一个优秀的效果，就像友商@Jerry黄大仙说的一样，新闻场景中的正文标题识别确实是相对好做的，可以直接hard coding一些特征。因为新闻标题在页面中出现的地方是很有特点的，比如在title标签中大概率出现，比如在正文上面大概率有h1,h2等标签，比如下面大概率有作者，发布时间等部分。显然可以...

2019-09-24 09:21:22 3927

原创 MySQL定时执行脚本(计划任务)命令实例

登录mysql服务器mysql -u root -p查看event是否开启show variables like '%sche%'; 将事件计划开启set global event_scheduler =1;创建存储过程myPROdelimiter $$ #将语句的结束符号从分号;临时改为两个$$(可以是自定义)CREATE PROC...

2019-09-20 11:20:38 1849

转载中国工程院院士高文ICTC演讲《国家新一代人工智能发展规划》

2018年10月24-26日，以“创新发展模式深化媒体融合”为主题的第二十六届媒体融合技术研讨会(ICTC2018)在杭州黄龙饭店举行。在24日举办的主题报告会上，中国工程院院士高文做了《国家新一代人工智能发展规划》为主题的演讲。ICTC由国家广播电视总局批准、中国广播电影电视社会组织联合会技术委员会、浙江省广播电影电视产业协会和华数数字电视传媒集团有限公司等单位共同举办，是广电领域最具影响力的国...

2019-09-20 09:17:38 2312

原创 windows下配置JAVA虚拟机以及环境变量

每次配置虚拟机都要手动输入太麻烦，特此记录一下。1.下载好需要的jdk版本并安装到指定的文件夹(安装过程简单) 举例:C:\jdk-132.安装完成后配置windows的环境变量：开始菜单-右键计算机-属性-高级系统设置-环境变量新建系统变量：变量名：JAVA_HOME变量值：C:\jdk-13新建系统变量：变量名：CLASSPATH变量值：.;%JAVA_...

2019-09-19 11:18:07 2601

Xposed离线完整+JustTrustMe.rar

Xposed离线完整+JustTrustMe

2021-09-26

SINA微博情感200万条（喜悦、厌恶、低落、愤怒）.rar

SINA微博情感200万条（喜悦、厌恶、低落、愤怒）

2021-06-14

WPBakery-Page-Builder-v6.6.0.zip

向最流行的WordPress页面编辑插件问好！WPBakery Page Builder将帮助你快速轻松地创建任何可以想象的布局。而且不需要编码技能！

2021-04-28

2018-2019中国开发者调查报告

2018-2019中国开发者调查报告.1. 30岁以下软件开发者人数占比超7成，全国近半数的开发者工作在一线城市。2. 软件开发者学习热情高涨，9成开发者通过技术媒体、技术社区、技术论坛等渠道了解行业最新动态、获取新知识。3. 7成开发者在使用Java语言，近6成开发者近期最想学Python语言。4. 超7成软件开发者主要来自二本以上院校，超8成毕业于计算机与软件专业。5. 大数据技术应用开始普及，但大数据应用场景相对单一。6. 86%的企业正在使用云服务，近8成企业利用云平台已经开发应用或正在开发应用。7. 区块链技术近两年刚刚兴起，27%开发者有应用或准备应用，66%开发者尚处于初步了解阶段， 7%开发者完全不了解，但是相比于2017年，这项技术被了解和关注的程度大幅度提高。8. 人工智能技术日益受到企业和市场的关注，应用前景广阔。9. 物联网产业链上企业主要集中在智能设备环节，智能家居是物联网最大的应用领域

2019-03-15

华为adb手机驱动工具官方版

华为adb手机驱动工具是一款专为华为手机准备的驱动软件，想要使用这款驱动软件的用户赶紧来下载吧。华为adb手机驱动工具简介：华为adb驱动工具主要适用于华为系列的手机，一般需要在电脑上安装对应的adb驱动才能够将手机与电脑连接进行手机的解锁操作。软件操作比较简单，运行后按照提示操作就可以了，如果你的手机被锁了，可以使用华为adb驱动工具进行解锁。华为adb手机驱动工具怎么安装? 下载解压，然后在解压出来的文件夹里找到【adb-setup-1.3.exe】直接双击打开安装，然后一直输入Y并按回车键进行安装，直接到安装完成。

2017-02-04

po,mo互转工具

今天我给大家带来了自制的mo、po文件相互转换工具，主要特点是方便简洁。 ==================================================================================== 使用方法：把要转换的mo或po文件拖到bat上即可，会自动在文件原目录生成对应的另一种格式。

2016-03-14