爬虫基础
文章平均质量分 76
一个回和
这个作者很懒,什么都没留下…
展开
-
通过session实现通用爬虫--爬取到开心网账户的首页界面
目录1.点开开心网的登录界面2.获取login_url 以及 账号和密码第一种方法 :F12 找到form表单第二种方法:Network3.开始写代码开心网的网址是http://www.kaixin001.com/我们接下来的操作是为了直接用session登录开心网,爬取账户主页的代码1.点开开心网的登录界面我们发现这是用form表单实现账号登录的2.获...原创 2019-04-26 12:52:02 · 1473 阅读 · 0 评论 -
MD5加密 --特点以及代码实现
1.md5加密的特点(1)md5加密不可逆(2)不管多大的字符串,他都能生成32位的字符串2.代码实现直接调用函数即可,把要加密的东西当做参数,传进去import hashlibdef getMd5(password): md5=hashlib.md5() md5.update(password) password=md5.hexdigest()...原创 2019-04-26 19:15:15 · 1465 阅读 · 1 评论 -
在python中什么是异常?在程序中为什么抛异常?抛异常的几种方式
目录1.什么是异常?2.在程序中为什么抛异常?3.抛异常的几种方式4.异常的好处5.爬虫过程中经常出现的异常1.什么是异常?异常就是程序执行过程中发生的错误异常即是一个事件,该事件会在程序执行过程中发生,影响了程序的正常执行。一般情况下,在Python无法正常处理程序时就会发生一个异常。异常是Python对象,表示一个错误。当Python脚本发生异常时我...原创 2019-04-26 21:42:53 · 2526 阅读 · 1 评论 -
浏览器渲染页面资源的原理
目录1.我们只是在浏览器中发起一个请求,但是会出现很多请求,比如说有一些图片,文件,音频,视频等2.浏览器渲染页面的过程(1)浏览器解析html源码,然后创建一个 DOM树。(2)浏览器解析CSS代码,计算出最终的样式数据。构建CSSOM树。(3)DOM Tree + CSSOM --> 渲染树(rendering tree)(4)一旦渲染树创建好了,浏览器就可以根据...原创 2019-04-26 22:52:15 · 280 阅读 · 0 评论 -
学习爬虫需要的知识以及通用爬虫,聚焦爬虫
目录1.爬虫的定义2.关于爬虫,我们需要学习的有:3.根据使用场景,爬虫的分类(1)通用爬虫(2)聚焦爬虫1.爬虫的定义爬虫是一种按照一定规则,自动抓取万维网信息的程序或者脚本2.关于爬虫,我们需要学习的有:(1)python的基础语法(2)html页面的内容抓取(3)html页面进行数据提取(4)scrapy框架(5)爬虫与反爬虫3.根据使...原创 2019-04-25 12:59:59 · 1052 阅读 · 0 评论 -
我们处于大数据时代,数据是从哪里来的?
目录1.爬虫是用来干什么的?2.在大数据时代,我们的数据从哪来?途径1:企业产生的数据百度指数阿里指数腾讯浏览指数新浪微博指数途径2:从数据平台购买数据数据堂国云数据市场贵阳大数据交易市场途径3:政府/机构公开的数据世界银行联合国数据纳斯达克数据途径4:数据管理咨询公司麦肯锡埃森哲艾瑞咨询途径5:爬取网络数据...原创 2019-04-25 13:01:26 · 7218 阅读 · 1 评论 -
Scrapy在安装过程中遇到了错误:error: Microsoft Visual C++ 14.0 is required. Get it with "Microsoft Visual C++ ..
安装scrapypip install scrapy在安装过程中出现了报错:解决方法:此时需要安装一个包,下面是该包的百度云链接: https://pan.baidu.com/s/1E9RWUmAZIpKhxpsdSl7O2w提取密码:n2pu如果链接失效了,欢迎给我留言评论pip install 直接把下号的包拖过去,就不用自己写地址了图示Twisted...原创 2019-05-10 09:38:28 · 1079 阅读 · 0 评论