python爬虫技术和机器学习
AlbenXie
这个作者很懒,什么都没留下…
展开
-
四行python代码实现oracle数据库dmp文件批量导入
写在最前面由于一些特殊的原因,我们可能需要向oracle中导入大量的dmp文件,我本次导入的dmp文件量为115个,总计45.4G。我选择用python编写批量导入脚本进行导入,不想在plsql中点三四百多次。你最好准备一包喝茶瓜子和一杯好茶。导入过程还是很耗资源的,看电脑情况吧,我的电脑在导入的时候我只能喝茶嗑瓜子~友情提示:如果你想直接看代码,可以直接把滚动条拉到最下面。环...转载 2019-12-04 13:56:03 · 2192 阅读 · 2 评论 -
python之pip常用命令
在使用python的时候,经常使用到pip这个工具,可以很方便的线上安装依赖库,当然pip还有很多参数都可以帮我们去查询一些库信息,这里就不说pip的安装了,还是提供下思路,在安装python的时候,下载带有pip的安装包就可以直接安装pip啦,当然没有带pip的,也可以通过下载安装包,手动安装。手动安装还是要会的,毕竟有时候下载超时、或者安装失败都可以用。命令:python 库的setup.p转载 2018-01-14 00:05:42 · 696 阅读 · 0 评论 -
机器学习算法比较
本文主要回顾下几个常用算法的适应场景及其优缺点!(提示:部分内容摘自网络)。机器学习算法太多了,分类、回归、聚类、推荐、图像识别领域等等,要想找到一个合适算法真的不容易,所以在实际应用中,我们一般都是采用启发式学习方式来实验。通常最开始我们都会选择大家普遍认同的算法,诸如SVM,GBDT,Adaboost,现在深度学习很火热,神经网络也是一个不错的选择。假如你在乎精度(accuracy)的话,最好...原创 2018-04-09 13:55:41 · 417 阅读 · 0 评论 -
轻松看懂机器学习十大常用算法
通过本篇文章可以对ML的常用算法有个常识性的认识,没有代码,没有复杂的理论推导,就是图解一下,知道这些算法是什么,它们是怎么应用的,例子主要是分类问题。每个算法都看了好几个视频,挑出讲的最清晰明了有趣的,便于科普。 以后有时间再对单个算法做深入地解析。今天的算法如下:决策树随机森林算法逻辑回归SVM朴素贝叶斯K最近邻算法K均值算法Adaboost 算法神经网络马尔可夫 1. 决策树根据一些 fe...原创 2018-04-09 14:22:35 · 450 阅读 · 0 评论 -
BAT脚本
开机要开各种环境,IDE,每次都要对着桌面图标一个个点击,感觉非常麻烦。利用window下的bat脚本语言,写一个极为简单而又实用的小脚本,一键将需要的程序打开。echo start echo QQ STARTstart /d "C:\Program Files (x86)\Tencent\QQ\Bin" QQScLauncher.exeecho cloudmusic START...转载 2019-09-19 17:57:57 · 440 阅读 · 0 评论 -
请问Bat文件是用什么什么语言写的?
.bat又名批處理文件.裡面基本都是是dos命令符.你找找以前老教材有關.bat的寫法是DOS批命令.与VB语言类似,批命令语言.一种标记语言,类似脚本晕,楼主没有玩过DOS吗?批处理我总是在cmd里面不停的打command用文本编缉器写的.DOS下用edit.exewindows环境可以用任意一款编缉器,编写好后.保存为bat为扩展名的文件就可以了.参...原创 2019-09-19 18:00:27 · 13084 阅读 · 0 评论 -
常用一些bat脚本命令
掌握一些基本常用的bat命令,能大幅度提高效率,持续更新中...获取当前路径set local_path=%cd%删除文件del /q %file_path%复制文件到指定路径xcopy %des_path% %src_path% /q复制文件夹下所有内容到指定目录下xcopy %src_path%\*.* %dest_path%\ /s /e...转载 2019-09-19 18:02:24 · 1850 阅读 · 0 评论 -
.bat 文件是什么?做什么用的?
一、bat文件是dos下的批处理文件。批处理文件是无格式的文本文件,它包含一条或多条命令。它的文件扩展名为 .bat 或 .cmd。在命令提示下输入批处理文件的名称,或者双击该批处理文件,系统就会调用cmd.exe按照该文件中各个命令出现的顺序来逐个运行它们。使用批处理文件(也被称为批处理程序或脚本),可以简化日常或重复性任务。扩展资料:使用批处理文件(也被称为批处理程序或脚本),可以...原创 2019-09-19 18:06:14 · 47691 阅读 · 0 评论 -
bat文件-摘自百度百科
基本介绍bat文件是dos下的批处理文件。批处理文件是无格式的文本文件,它包含一条或多条命令。它的文件扩展名为 .bat 或 .cmd。在命令提示下输入批处理文件的名称,或者双击该批处理文件,系统就会调用cmd.exe按照该文件中各个命令出现的顺序来逐个运行它们。使用批处理文件(也被称为批处理程序或脚本),可以简化日常或重复性任务。用法命令Echo 命令打开回显或关闭请求回显功能,...原创 2019-09-19 18:09:59 · 748 阅读 · 0 评论 -
批处理-摘自百度百科
总体介绍批处理(Batch),也称为批处理脚本。顾名思义,批处理就是对某对象进行批量的处理,通常被认为是一种简化的脚本语言,它应用于DOS和Windows系统中。批处理文件的扩展名为bat。目前比较常见的批处理包含两类:DOS批处理和PS批处理。PS批处理是基于强大的图片编辑软件Photoshop的,用来批量处理图片的脚本;而DOS批处理则是基于DOS命令的,用来自动地批量地执行DOS命令以...原创 2019-09-19 18:18:56 · 827 阅读 · 0 评论 -
windows环境下面配置pip环境变量
1、什么是pip首先我们要知道什么是pip,为什么要使用pip。pip 是一个安装和管理 Python 包的工具 , 是 easy_install 的一个替换品。本文将详细说明 安装 pip 的方法和 使用 pip 的一些基本操作如安装、更新和卸载 python 包。2、初次使用pip出错许多人在第一次使用pip的时候都会出现'pip' 不是内部或外部命原创 2018-01-13 23:12:40 · 29944 阅读 · 3 评论 -
一看就明白的爬虫入门讲解
关于爬虫内容的分享,我会分成两篇,六个部分来分享,分别是:我们的目的是什么内容从何而来了解网络请求一些常见的限制方式尝试解决问题的思路效率问题的取舍本文先聊聊前三个部分。一、我们的目的是什么一般来讲对我们而言需要抓取的是某个网站或者某个应用的内容,提取有用的价值,内容一般分为两部分,非结构化的文本,或者结构化的文本。关于非结构化的数据1.1 HTML文本(包原创 2017-05-23 11:27:08 · 3750 阅读 · 0 评论 -
python编写的新浪微博爬虫
最近实验室安排了个任务,写一个新浪微博的爬虫,抓取大家的微博内容进行分析。话说都快毕业了,最近还在一家通信设备商实习(工资好少啊),无奈只能抽出晚上的时间来写这个程序。本来想用开源的爬虫的,于是尝试了nutch和heritrix。nutch性能太不稳定了,老是出问题。heritrix功能多,复杂,跑起来也慢。当看到这两篇博客后(http://kcclub.kings原创 2017-05-23 11:30:19 · 1831 阅读 · 0 评论 -
一看就明白的爬虫入门讲解:基础理论篇
关于爬虫内容的分享,我会分成两篇,六个部分来分享,分别是:我们的目的是什么内容从何而来了解网络请求一些常见的限制方式尝试解决问题的思路效率问题的取舍一、我们的目的是什么一般来讲对我们而言,需要抓取的是某个网站或者某个应用的内容,提取有用的价值,内容一般分为两部分,非结构化的文本,或结构化的文本。1. 关于非结构化的数据1.1 HTML文本(包转载 2017-05-23 11:04:19 · 984 阅读 · 0 评论 -
Python3.x爬虫教程:爬网页、爬图片、自动登录
摘要:本文将使用Python3.4爬网页、爬图片、自动登录。并对HTTP协议做了一个简单的介绍。在进行爬虫之前,先简单来进行一个HTTP协议的讲解,这样下面再来进行爬虫就是理解更加清楚。一、HTTP协议 HTTP是Hyper Text Transfer Protocol(超文本传输协议)的缩写。它的发展是万维网协会(World Wide Web Consortium转载 2017-07-07 09:14:28 · 3588 阅读 · 0 评论 -
Python验证码识别处理实例
一、准备工作与代码实例1、PIL、pytesser、tesseract(1)安装PIL:下载地址:http://www.pythonware.com/products/pil/(CSDN下载)下载后是一个exe,直接双击安装,它会自动安装到C:\Python27\Lib\site-packages中去,(2)pytesser:下载地址:http://code.googl转载 2017-07-07 09:15:33 · 1501 阅读 · 0 评论 -
Java实现网络爬虫入门Demo
需求:抓取一个网页(比如www.lianhehuishang.com)中的url地址,并存到F:\spider_url.txt文件中。程序:[java] view plain copypackage com.zheng; import java.io.BufferedReader; im转载 2017-07-31 12:23:42 · 620 阅读 · 0 评论 -
《机器学习&&深度学习》 视频课程资源百度云下载
《机器学习&&深度学习》 视频课程资源百度云下载。 林轩田:机器学习基石 链接:http://pan.baidu.com/s/1qXSKZP64 密码:dwie林轩田:機器學習技法 (Machine Learning Techniques)链接:http://pan.baidu.com/s/1i5I0kZj3 密码:zwceandrew Ng视频课程和讲义链接:转载 2017-08-22 16:21:26 · 11518 阅读 · 3 评论 -
爬虫入门到精通-headers的详细讲解(模拟登录知乎)
本文章属于爬虫入门到精通系统教程第七讲直接开始案例吧。本次我们实现如何模拟登陆知乎。1.抓包首先打开知乎登录页 知乎 - 与世界分享你的知识、经验和见解注意打开开发者工具后点击“preserve log”,密码记得故意输入错误,然后点击登录我们很简单的就找到了 我们需要的请求_xsrf:81aa4a69cd410c3454转载 2017-04-26 11:26:41 · 1770 阅读 · 0 评论 -
网络爬虫二三事儿
目录(?)[+]一、网络爬虫简介网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。二、网络爬虫分类网络爬虫按照系统结构和实现技术,大致可以分为以下几种类型:深层网络爬虫(Deep Web Crawl转载 2017-04-12 10:33:27 · 1197 阅读 · 0 评论 -
一篇文章了解爬虫技术现状
本文全面的分析了爬虫的原理、技术现状、以及目前仍面临的问题。如果你没接触过爬虫,本文很适合你,如果你是一名资深的虫师,那么文末的彩蛋你可能感兴趣。需求万维网上有着无数的网页,包含着海量的信息,无孔不入、森罗万象。但很多时候,无论出于数据分析或产品需求,我们需要从某些网站,提取出我们感兴趣、有价值的内容,但是纵然是进化到21世纪的人类,依然只有两只手,一双眼,不可能去每一个网页去原创 2017-05-23 11:26:28 · 52873 阅读 · 11 评论