- 博客(6)
- 收藏
- 关注
原创 20200407-python内容爬取
今天学到了robots协议。全称robots exclusion standards,用来告知网络爬虫哪些页面可抓取性。去打开www.nike.com/robots.txt有惊喜哦~尽量遵守协议,毕竟很多交易或者经营信息可以被拿来研究行业内幕哦。。。下面介绍几个案例爬取网页数据。京东产品信息亚马逊产品信息百度搜索关键词信息网络图片爬取ip地址归属地查询...
2020-04-07 23:43:29 168
转载 Python 的 __name__ 变量,到底是个什么东西?
大家应该已经在很多 Python 脚本里见到过 name 变量了吧?它经常是以类似这样的方式出现在我们的程序里:if name == ‘main’:main()今天,我就带大家详细扒一扒这个内置变量的用法,示范一下在你写的 Python 模组里要怎么用到它。这个 name 拿来做什么的?作为 Python 的内置变量,__name__变量(前后各有两个下划线)还是挺特殊的。它是每个 Py...
2020-04-06 21:48:04 974 1
原创 python网络爬虫与信息提取-20200406
通过学习,我们可以使用request库自动爬取html页面,自动网络请求提交,网络爬虫排除标准,解析html页面,并了解正则表达式,能够提取页面关键信息,通过实战项目透彻掌握网络数据爬取和网页解析的基本能力。文本工具ide 选用sublime txt集成工具ide pycharm anaconda 我安装了anaconda 就用的这个...
2020-04-06 21:24:42 201
转载 20200225-SQL主键外键索引
对于关系表,有个很重要的约束,就是任意两条记录不能重复。不能重复不是指两条记录不完全相同,而是指能够通过某个字段唯一区分出不同的记录,这个字段被称为主键。因此,身份证号、手机号、邮箱地址这些看上去可以唯一的字段,均不可用作主键。作为主键最好是完全业务无关的字段,我们一般把这个字段命名为id。常见的可作为id字段的类型有:自增整数类型:数据库会在插入数据时自动为每一条记录分配一个自增整数,这样...
2020-02-27 14:30:07 184
转载 20200224学习记录-SQL
和其他关系数据库有所不同的是,MySQL本身实际上只是一个SQL接口,它的内部还包含了多种数据引擎,常用的包括:InnoDB:由Innobase Oy公司开发的一款支持事务的数据库引擎,2006年被Oracle收购;MyISAM:MySQL早期集成的默认数据库引擎,不支持事务。MySQL接口和数据库引擎的关系就好比某某浏览器和浏览器引擎(IE引擎或Webkit引擎)的关系。对用户而言,切换浏...
2020-02-25 14:45:27 100
转载 学习记录20200222-SQL初步
因为之前学过一点点,觉得不是太难,作为记录起步。SQL就是访问和处理关系数据库的计算机标准语言。也就是说,无论用什么编程语言(Java、Python、C++……)编写程序,只要涉及到操作关系数据库,比如,一个电商网站需要把用户和商品信息存入数据库,或者一个手机游戏需要把用户的道具、通关信息存入数据库,都必须通过SQL来完成。你可以在线直接输入并运行SQL,然后观察运行结果。当然,这个在线效果是...
2020-02-23 01:05:14 140
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人