爬虫进化之路
小白虫成长进化之路,以项目为武器,以技术为口粮,踏地而行,持之以恒。
nice博
这个作者很懒,什么都没留下…
展开
-
redis|必会
1. Window 下安装下载地址:https://github.com/MSOpenTech/redis/releases。打开cmd命令窗口,使用命令进行安装和注册redis到window服务安装命令:redis-server.exe --service-install redis.windows.conf --loglevel verbose进入安装的目录下,然后运行dos命令,执行以下语句(如果路径已配置在环境配置的path路径下,无需进入安装的目录下)启动服务命令:redis-serve原创 2020-06-09 19:26:38 · 340 阅读 · 0 评论 -
selenium爬取甘肃建筑业信息
目标网址:http://42.123.101.210:8088/gzzhxt/采用技术:selenium技术进行爬取网站分析1. 网页分析分析网页,发现我们要爬取的公司信息是动态加载的,可以从两方面入手,法一:接口,需要构建请求头,但是分析发现请求头中的data数据是加密过的这给我们带来了很大的困难,翻页以后对比各页的url,发现接口的url并没有改变,但是在preview中发现pageIndex确实是改变的,这对我们多页爬取又设置了一个大的坑,采用接口的形式爬取很不明智。法二:采用seleni原创 2020-05-21 00:07:46 · 345 阅读 · 0 评论 -
selenium-对话框处理
弹出框有两种:页面弹出框(可定位元素能操作)、Windows弹出框(不能直接定位)1. 页面弹出框driver = webdriver.Chrome()driver.get("https://www.baidu.com")driver.maximize_window()#点击百度登录按钮driver.find_element_by_xpath('//*[@id="u1"]//a[@name="tj_login"]').click()#等待百度登录弹出框中 要出现的元素可见ele_id =原创 2020-05-20 17:55:49 · 1246 阅读 · 0 评论 -
python-等待
强制等待import timetime.sleep(10)sleep()函数为强制等待时间,即等待时间固定,不受其他影响,参数单位默认为秒2. 隐式等待from selenium import webdriverdriver = webdriver.Chrome()driver.implicitly_wait(10) # secondsdriver.get('https://www.baidu.com')bai = driver.find_element_by_id('sus') .原创 2020-05-19 00:44:21 · 2550 阅读 · 0 评论 -
selenium实现拉钩爬虫
在这前通过接口分析拉钩网站,发现其反爬虫措施比较多,爬取比较麻烦,在这一章节,采用selenium方法进行爬虫设计。1. 初始化采用类模式的形式设计实现,先初始化自己的的信息,实现代码如下:chrome_driver = r"F:\python\python_environment\chromedriver.exe" def __init__(self): self.driver = webdriver.Chrome(executable_path=self.chrome_d原创 2020-05-18 21:36:30 · 358 阅读 · 3 评论 -
接口实现拉钩爬虫
拉勾网是个反爬措施比较多的网站,其中有许多需要我们调试分析学习的地方,本章就以拉钩网上遇见的问题进行分析,然后进行爬虫设计。1. 网页分析打开网页链接(这里我是用python关键字搜索的):https://www.lagou.com/jobs/list_python?labelWords=&fromSearch=true&suginput=之后查看网页源代码,搜索岗位信息(Ctrl+f),发现我们所需的数据不在网页源代码中出现,而是通过ajax接口把数据传递过来的。拉钩网是一个典型的原创 2020-05-18 17:10:11 · 714 阅读 · 1 评论 -
动态网页数据分析
什么是AjaxAjax 即“Asynchronous Javascript And XML”(异步 JavaScript 和 XML),是指一种创建交互式网页应用的网页开发技术。Ajax 是一种在无需重新加载整个网页的情况下,能够更新部分网页的技术。通过在后台与服务器进行少量数据交换,Ajax 可以使网页实现异步更新。这意味着可以在不重新加载整个网页的情况下,对网页的某部分进行更新。使用Ajax加载的数据,即使使用了JS,将数据渲染到了浏览器中,在 右键-查看网页源代码还是不能看到通过Ajax加载的数据,原创 2020-05-08 23:33:12 · 932 阅读 · 0 评论 -
爬取多本小说
目标网站笔趣阁全部小说栏的小说网址:http://www.xbiquge.la/xiaoshuodaquan/页面解析爬取流程:1. 请求网站拿到数据,抽取小说名创建文件夹,抽取小说链接解析网页发现,所有的书和其连接都是在相同在相同的标签下,极大的降低了我们爬取不同类别小说的难度,爬取书名以后需要将书名作为文件名,以便于之后本书章节的存储。实现代码如下: def start_...原创 2020-05-04 00:56:48 · 1000 阅读 · 1 评论 -
git|必会知识
git基础知识1. 注册注册用户名和邮箱(user.name为自己的用户名)git config --global user.name “user.name”git config --global user.email “user.email”2. github中ssh-key检测设置查看是否设置ssh钥匙cd ~/.ssh如果没有钥匙,执行命令生成钥匙(根据提示:...原创 2020-05-01 01:01:33 · 140 阅读 · 0 评论 -
windows下mongodb及其可视化工具Robomongo的安装使用
参考文章连接:https://blog.csdn.net/chenxi_li/article/details/94636171转载 2020-04-30 10:15:37 · 215 阅读 · 0 评论 -
scrapy的介绍以及基本使用
爬取目标网站:http://quotes.toscrape.com/流程:抓取第一页:请求第一页的url并得到源代码,进行下一步分析获取内容和下一页的链接:分析源代码,提取首页内容,获取下一页链接等待进一步爬取保存爬取结果:将爬取结果保存为特定格式如文本,数据库翻页爬取:请求下一页信息,分析内容并请求下一页链接...原创 2020-04-26 23:42:27 · 1263 阅读 · 0 评论 -
python的pip安装提速方法
Mac和Linux配置步骤1、打开terminal2、输入命令:mkdir .pipvim .pip/pip.conf(这两步是在家目录下新建文件: .pip/pip.conf)在这个文件中写入如下内容:[global]index-url = https://pypi.doubanio.com/simple/timeout = 1000【install】use-mirrors...原创 2020-04-22 15:04:41 · 242 阅读 · 0 评论 -
Appium环境搭建和检测
AppiumAppium优点开源跨架构:NativeApp、Hybird App、Web App跨设备:Android、iOS、Firefox OS不依赖源码使用任何WebDriver 兼容的语言来编写测试用例。比如 Java, Objective-C, JavaScript with Node.js, PHP, Python, Ruby, C#, Clojure, 或者 Perl....原创 2020-04-19 20:41:50 · 856 阅读 · 0 评论 -
mysql | 必会知识
概念数据库是一个以某种方式有组织的形式存储的数据集合数据库(database) 保存有组织的数据的容器。(一个文件或者一组文件)数据库表特性: 定义数据如何存储,存储什么数据,数据如何分解。模式(scheme): 关于数据库和表布局以及特性的信息列(column): 表中一个字段行(row): 表中的一个记录主键(primary key) : 一列(或者一组列 ,其值能够唯一区分表...原创 2020-04-17 22:30:47 · 156 阅读 · 0 评论 -
selenium实现淘宝爬虫
准备工作安装好selenium和浏览器驱动chromedriver。淘宝爬虫过程分析加代码1.页面请求分析首先请求淘宝页面,然后输入要爬取的数据的关键词,没有登陆,此时会弹出登陆的窗口,采取模拟浏览器登陆形式进行登陆,之后获取页面的文本信息。安装好浏览器驱动chromedriver,可以先配置其地址信息,实现代码如下:chrome_driver = r"F:\python\python...原创 2020-04-17 14:15:58 · 1089 阅读 · 1 评论 -
淘宝爬虫1
这里写自定义目录标题淘宝爬虫技术分析淘宝页面分析模拟鼠标的滑动,处理部分图片不显示问题,采用JS的鼠标滑动的功能来实现,实现代码如下:数据的解析,优化,可以选择数据的存储方式。总结淘宝爬虫爬取淘宝上的数据:销量啊、价格啊、以及好评等等。这里以selenuim为例,来介绍一下淘宝商品的爬取过程。在此之前,需要确保selenuim和浏览器驱动chromedriver已经安装好。技术分析爬取...原创 2020-03-25 15:54:38 · 1260 阅读 · 3 评论