liujiayu2的专栏

玩点技术

Python爬虫,月薪25K的爬虫工程师对近期爬虫学习的总结!超全!

今天咱们就来花几分钟了解一下Python爬虫好玩的地方吧!差点忘了。在给大家分享之前呢,小编推荐一下一个挺不错的交流宝地,里面都是一群热爱并在学习Python的小伙伴们,大几千了吧,各种各样的人群都有,特别喜欢看到这种大家一起交流解决难题的氛围,群资料也上传了好多,各种大牛解决小白的问题,这个Py...

2018-03-01 09:55:00

阅读数:286

评论数:0

用py2exe打包成一个exe文件

一、简介py2exe是一个将python脚本转换成windows上的可独立执行的可执行程序(*.exe)的工具,这样,你就可以不用装python而在windows系统上运行这个可执行程序。py2exe已经被用于创建wxPython,Tkinter,Pmw,PyGTK,pygame,win32com...

2018-02-28 11:20:07

阅读数:61

评论数:2

Python爬虫实战(5):模拟登录淘宝并获取所有订单

经过多次尝试,模拟登录淘宝终于成功了,实在是不容易,淘宝的登录加密和验证太复杂了,煞费苦心,在此写出来和大家一起分享,希望大家支持。本篇内容1. python模拟登录淘宝网页2. 获取登录用户的所有订单详情3. 学会应对出现验证码的情况4. 体会一下复杂的模拟登录机制探索部分成果1. 淘宝的密码用...

2018-02-27 11:30:08

阅读数:346

评论数:0

Python爬虫实战(4):抓取淘宝MM照片

福利啊福利,本次为大家带来的项目是抓取淘宝MM照片并保存起来,大家有没有很激动呢?本篇目标1.抓取淘宝MM的姓名,头像,年龄2.抓取每一个MM的资料简介以及写真图片3.把每一个MM的写真图片按照文件夹保存到本地4.熟悉文件保存的过程1.URL的格式在这里我们用到的URL是 ,问号前面是基地址,后面...

2018-02-27 11:28:14

阅读数:65

评论数:0

Python爬虫实战(3):计算大学本学期绩点

大家好,本次为大家带来的项目是计算大学本学期绩点。首先说明的是,博主来自山东大学,有属于个人的学生成绩管理系统,需要学号密码才可以登录,不过可能广大读者没有这个学号密码,不能实际进行操作,所以最主要的还是获取它的原理。最主要的是了解cookie的相关操作。本篇目标1.模拟登录学生成绩管理系统2.抓...

2018-02-27 11:27:29

阅读数:38

评论数:0

Python爬虫实战(2):百度贴吧帖子

大家好,上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子。与上一篇不同的是,这次我们需要用到文件的相关操作。本篇目标1.对百度贴吧的任意帖子进行抓取2.指定是否只抓取楼主发帖内容3.将抓取到的内容分析并保存到文件1.URL格式的确定首先,我们先观察一下百度贴吧的任意一个...

2018-02-27 11:26:32

阅读数:44

评论数:0

Python爬虫实战(1):爬取糗事百科段子

大家好,前面入门已经说了那么多基础知识了,下面我们做几个实战项目来挑战一下吧。那么这次为大家带来,Python爬取糗事百科的小段子的例子。首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来。本篇目标1.抓取糗事百科热门段子2.过滤带有图片的段子3.实...

2018-02-27 11:25:25

阅读数:53

评论数:0

Python爬虫入门(8):Beautiful Soup的用法

上一节我们介绍了正则表达式,它的内容其实还是蛮多的,如果一个正则匹配稍有差池,那可能程序就处在永久的循环之中,而且有的小伙伴们也对写正则表 达式的写法用得不熟练,没关系,我们还有一个更强大的工具,叫Beautiful Soup,有了它我们可以很方便地提取出HTML或XML标签中的内容,实在是方便,...

2018-02-27 11:24:21

阅读数:25

评论数:0

Python爬虫入门(7):正则表达式

在前面我们已经搞定了怎样获取页面的内容,不过还差一步,这么多杂乱的代码夹杂文字我们怎样把它提取出来整理呢?下面就开始介绍一个十分强大的工具,正则表达式!1.了解正则表达式正则表达式是对字符串操作的一种公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符...

2018-02-27 11:23:31

阅读数:34

评论数:0

Python爬虫入门(6):Cookie的使用

大家好哈,上一节我们研究了一下爬虫的异常处理问题,那么接下来我们一起来看一下Cookie的使用。为什么要使用Cookie呢?Cookie,指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据(通常经过加密)比如说有些网站需要登录后才能访问某个页面,在登录之前,你想抓取某个...

2018-02-27 11:22:05

阅读数:33

评论数:0

Python爬虫入门(5):URLError异常处理

大家好,本节在这里主要说的是URLError还有HTTPError,以及对它们的一些处理。1.URLError首先解释下URLError可能产生的原因:网络无连接,即本机无法上网连接不到特定的服务器服务器不存在在代码中,我们需要用try-except语句来包围并捕获相应的异常。下面是一个例子,先感...

2018-02-27 11:21:24

阅读数:26

评论数:0

Python爬虫入门(4):Urllib库的高级用法

1.设置Headers有些网站不会同意程序直接用上面的方式进行访问,如果识别有问题,那么站点根本不会响应,所以为了完全模拟浏览器的工作,我们需要设置一些Headers 的属性。首先,打开我们的浏览器,调试浏览器F12,我用的是Chrome,打开网络监听,示意如下,比如知乎,点登录之后,我们会发现登...

2018-02-27 11:20:48

阅读数:25

评论数:0

Python爬虫入门(3):Urllib库的基本使用

那么接下来,小伙伴们就一起和我真正迈向我们的爬虫之路吧。1.分分钟扒一个网页下来怎样扒网页呢?其实就是根据URL来获取它的网页信息,虽然我们在浏览器中看到的是一幅幅优美的画面,但是其实是由浏览器解释才呈现出来的,实质它 是一段HTML代码,加 JS、CSS,如果把网页比作一个人,那么HTML便是他...

2018-02-27 11:20:03

阅读数:24

评论数:0

Python爬虫入门(2):爬虫基础了解

1.什么是爬虫爬虫,即网络爬虫,大家可以理解为在网络上爬行的一直蜘蛛,互联网就比作一张大网,而爬虫便是在这张网上爬来爬去的蜘蛛咯,如果它遇到资源,那么它就会抓取下来。想抓取什么?这个由你来控制它咯。比如它在抓取一个网页,在这个网中他发现了一条道路,其实就是指向网页的超链接,那么它就可以爬到另一张网...

2018-02-27 11:19:12

阅读数:35

评论数:0

Python爬虫入门(1):综述

大家好哈,最近博主在学习Python,学习期间也遇到一些问题,获得了一些经验,在此将自己的学习系统地整理下来,如果大家有兴趣学习爬虫的话,可以将这些文章作为参考,也欢迎大家一共分享学习经验。Python版本:2.7,Python 3请另寻其他博文。首先爬虫是什么?网络爬虫(又被称为网页蜘蛛,网络机...

2018-02-27 11:18:37

阅读数:35

评论数:0

Photo.scr病毒

Photo.scr病毒怎么清除和防范?有段时间笔者的win2003服务器上出现大量Photo.scr病毒,庆幸的是检查任务管理器后并没有发现可疑进程,说明病毒没有被执行。删除后没清静多少时间,这些病毒又冒出来了。这些Photo.scr的路径都在IIS自带FTP的路径下,关闭FTP服务就不再出现了,...

2018-01-18 11:26:37

阅读数:220

评论数:0

windows怎么查看进程的启动时间

点击“开始→运行”,在运行框里输入“msinfo32”打开“系统信息”窗口,依次点击“软件环境→正在运行任务”就可以查看到进程的详细信息,比如进程路径、文件创建日期、启动时间等等一目了然,对不熟悉的进程可以进一步检查,如果碰上系统进程显示的路径为“不可用”,则说明那就是可疑进程了,这也是查找木马文...

2018-01-15 10:34:59

阅读数:225

评论数:2

LOL新符文系统最通俗解读

斗玩网原创:LOL新符文系统不知道大家还看的懂吗?是不是懵逼了?不要担心,今天小编就为大家分享几张图片,只要一眼就看的懂S8新赛季符文的变化,简直是无往不利! 总体上看明白了吗?……下面细分一下。(每一行可以选一个作为自己的符文,你们自己看着上面的英雄挑挑看吧) ...

2017-12-27 11:23:54

阅读数:285

评论数:0

“白加黑”远控木马技术分析及手杀方案

“白加黑”是民间对一种DLL劫持技术的通俗称呼,现在很多恶意程序利用这种劫持技术来绕过安全软件的主动防御以达到加载自身的目的,是目前很火的一种免杀手段。本文将针对此类病毒做了一个简单技术介绍和案例演示。 所谓的“白加黑”,笼统来说是“白exe”加“黑dll”,“白exe”是指带有数字签名的正...

2017-12-13 11:18:25

阅读数:536

评论数:0

白加黑木马开发思路

原文链接:https://bbs.pediy.com/thread-178628.htm 一、什么是白加黑   白就是此文件在杀软的白名单中,不会被杀软查杀;黑就是我们的恶意代码,由自己编写。通常白黑共同组成木马的被控端,最大限度的逃避杀软查杀,增强抗杀能力,而且方便免杀处理。一般情况下白为e...

2017-12-13 09:53:34

阅读数:273

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭