
爬虫
文章平均质量分 57
思考实践
以身作则,静待花开。长期主义,宇宙主义,价值导向。多角度分析问题,积极解决问题,不要停下来。THU-phd,CAS-master.
展开
-
Selenium自动化脚本学习(一)
Selenium提供了一个通用的接口,可模拟用户来操作游览器。代码#coding = utf-8from selenium import webdriver#browser = webdriver.Chrome() #谷歌browser = webdriver.Safari()browser.get("http://www.baidu.com")browser.find_element_by_id("kw").send_keys("you are hacked ,s...原创 2021-11-25 22:16:54 · 559 阅读 · 0 评论 -
爬取豆瓣top250电影练习
python爬取豆瓣电影top250,代码及思路 - 知乎BeautifulSoup中的find,find_all - 做梦当财神 - 博客园原创 2021-11-24 22:20:31 · 731 阅读 · 0 评论 -
正则表达式及其工具
正则表达式资料整理原创 2021-11-24 21:10:23 · 212 阅读 · 0 评论 -
爬一下学校网站的资源
有一些课程里面有太多pdf了,又没有提供一键下载,手动略显麻烦(当然写脚本的时间成本更高,不过也学习了以后或许用得上),就写了一个爬虫脚本。 废话不多说,见图。 比如这门课pdf多,要去下载。代码贴上:import requestsfrom bs4 import BeautifulSoup as soupimport osfrom pathlib import Path# filename = Path('./file')cooki...原创 2021-11-16 10:26:43 · 333 阅读 · 0 评论 -
爬虫系列-beautifulsoup(bs4)
安装bs4pip install beautifulsoup4 参考资料:bs4 BeautifulSoup - 简书Python BS4库的安装与使用详解Python网页爬虫之BS4(Beautiful Soup)用法及案例_houzeyu666的博客-CSDN博客_bs4和beautifulsoup原创 2021-11-16 10:15:09 · 543 阅读 · 0 评论 -
相关系数(correlation coefficient)
参考资料: UCAS.数据挖掘.Preprocessing.pdf 刘莹原创 2021-10-29 11:45:31 · 586 阅读 · 0 评论 -
OLAP和OLTP,bitmap indexing
重点还是讲讲咱们的区别与OLAP的操作1.区别OLTP#引用????1的说法OLTP的全称是On-line Transaction Processing,中文名称是联机事务处理。其特点是会有高并发且数据量级不大的查询,是主要用于管理事务(transaction-oriented)的系统。此类系统专注于short on-line-tansactions 如INSERT, UPDATE, DELETE操作。通常存在此类系统中的数据都是以实体对象模型来存储数据,并满足3NF(数据库第三范式)...原创 2021-10-29 10:11:26 · 355 阅读 · 0 评论 -
数据仓库和数据库的区别
浅谈dataware house 与 database的区别? 首先数据库软件、数据库和数据仓库是什么?数据库软件:是一种软件(并不是链接数据库的图形化客户端)。用来实现数据库逻辑过程,属于物理层。数据库:是一种逻辑概念,用来存放数据的仓库,通过数据库软件来实现。数据库由很多表组成,表是二维的,一张表里面有很多字段。字段一字排开,对数据就一行一行的写入表中。数据库的表,在于能够用二维表现多维的关系。如:oracle、DB2、MySQL、Sybase、...原创 2021-10-28 19:40:50 · 4368 阅读 · 0 评论 -
代理IP是什么意思
代理IP即代理服务器(Proxy Server)是一种重要的安全功能,它的工作主要在开放系统互联(OSI)模型的对话层,从而起到防火墙的作用。IP是上网需要唯一的身份地址,身份凭证,而代理IP就是我们上网过程中的一个中间平台,是由你的电脑先访问代理IP,之后再由代理IP访问你点开的页面,所以在这个页面的访问记录里留下的是就是代理IP的地址,而不是你的电脑本机IP。扩展资料:随着互联网的飞速发展,越来越多的用户在上网过程中暴露个人的隐私信息,使用代理IP可以伪装用户真实IP地址,主要的功能有:原创 2021-07-05 16:07:51 · 1474 阅读 · 0 评论 -
关系型数据库与非关系型数据库比较
什么是关系型数据库?关系型数据库最典型的数据结构是表,由二维表及其之间的联系所组成的一个数据组织。优点:1、易于维护:都是使用表结构,格式一致;2、使用方便:SQL语言通用,可用于复杂查询;3、复杂操作:支持SQL,可用于一个表以及多个表之间非常复杂的查询。缺点:1、读写性能比较差,尤其是海量数据的高效率读写;2、固定的表结构,灵活度稍欠;3、高并发读写需求,传统关系型数据库来说,硬盘I/O是一个很大的瓶颈什么是非关系型数据库呢?非关系型数据库严格上是一种数据结构化存储...原创 2021-06-28 11:55:54 · 235 阅读 · 0 评论 -
2021-06-28爬虫笔记之Robot协议与相关(二)
Robots协议是什么?(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。百度官方建议,仅当您的网站包含不希望被搜索引擎收录的内容时,才需要使用rob转载 2021-06-28 11:12:26 · 364 阅读 · 0 评论 -
爬虫学习笔记(一)
目录一、爬虫1、概念2、爬虫的内容3、服务器的通行证Robots.txt4、爬虫的途径5、可能遇到的限制6、常用爬虫方案二、相关概念1、URL的组成2、URI3、HTML4、网络请求5、cookie6、请求结果7、静态页面、动态页面一、爬虫1、概念2、爬虫的内容(1)爬到的数据可能是:表格文本图片+文本(二手车信息、京东网商品信息)(2)哪些不可以被爬:(3)eg:搜索引擎(baidu、google、转载 2021-06-28 11:01:16 · 321 阅读 · 0 评论