chromium爬虫_软件推荐丨miniblink —— 精简小巧的 Chromium 内核控件

ea0e37046af1e5c448da3819c51fd725.png

点击右上方,关注开源中国OSC头条号,获取最新技术资讯

miniblink是一款精简小巧的浏览器控件,基于chromium精简而成,是市面上最小巧的chromium内核控件没有之一。

它仅10余M大小,只需一个dll,几个纯C接口即可轻松调起,并嵌入到任何软件内使用。

你可以用来显示网页、做软件的界面框架、做爬虫等功能。

它内置了各种网络拦截接口,可以方便的替换网络资源;解除了跨域访问限制,方便本地开发测试等。

如果你使用过cef、wke的话,相信很容易理解。

miniblink采用的接口和wke几乎一模一样,可以算做wke的升级版。

目前只支持windows系统,包括xp。

  • 极致小巧的体积 (small size)
  • C++,C#,Delphi等语言调用 (support C++,C#,Delphi language to call)
  • 内嵌Nodejs,支持electron (with Nodejs, can run electron)
  • 随心所欲的定制功能、模拟环境 (simulate other browser environment)
  • 支持Windows xp、npapi (support windows xp and npapi)
  • 完善的HTML5支持,对各种前端库友好 (support HTML5, and friendly to front framework)
  • 关闭跨域开关后,可以使用各种跨域功能 (support cross domain)
  • 网络资源拦截,替换任意网站任意js为本地文件 (network intercept, you can replace any resource to local file)
  • headless模式,极大节省资源,适用于爬虫 (headless mode, be suitable for Web Crawler)

点击下方“了解更多”,获取软件下载地址。

↓↓↓

前言 本程序基于精易Web浏览器支持库(miniblink内核) 请在打开本代码前保证安装了“精易Web浏览器支持库”,否则会导致无法打开等极度严重的Bug 【一些问题】摘自帖子精易Web浏览器支持库(miniblink内核) Q. 为什么提示找不到dll命令? A. 请将"node.dll" 这个文件放到易语言 根目录,易语言/lib 目录下,调试时会从这两个文件夹里寻找"node.dll"文件,"这两个目录必须要要node.dll"如果是编译的版本,请将"node.dll" 存放到你编译好的程序的目录下 这里是程序中使用的Dll或Exe的查毒:截图.exe exdui.dll 程序特点(下面是部分介绍和截图): 1.首先程序使用了多标签(多Tabs)构架,对于很多人来说,这个构架并不是很新颖。但是,本浏览器(下称“MiniBlink浏览器”)使用的是多进程操纵,即一个浏览器便是一个进程,这样有什么好处呢? 1.由于Miniblink的特性,在统一进程下,如果创建多个浏览框窗口,如果修改单个的Cookie目录或者缓存目录,则本进程下的全部浏览框的Cookie目录或者缓存目录都会被修改,那么,如果采用多进程构架的话,就不存在这个问题,所以“MiniBlink浏览器”经过您简单的修改,每个浏览框都可以独立Cookie缓存,何乐而不为呢? 2.众所周知,Miniblink浏览框采用单线程渲染界面,那么假如你在窗口中创建过多的浏览框且都处于访问状态的话,实际访问速度就会大大的下降,而“MiniBlink浏览器”使用多进程,平均访问速度更加快。 原理介绍:多进程之间怎么进行很好的控制呢?其实就是一件简单的进程通信在主进程中,程序保留了对于子进程的信息记录,标识保留在“高级选择夹_Ex”中的“子夹图标”这一函数中!!(这里要提出一个警告,“高级选择夹_Ex”中的“子夹图标”保留的为当前浏览框的标识,而不是真正是图标句柄,因为开始没有考虑图标的问题,后来也懒得改了,“SetImg”才是真正设置图标的命令!!) 2.主程序全局使用“Ex_DirectUI” 包含的Ex组件 介绍 构造 小按钮_Ex 创建一个图片小按钮 其实是一个简单的图像绘制的按钮 高级选择夹_Ex 本组件是一个模拟高级选择夹的组件 State拼凑组合而成 书签夹_Ex 创建一个书签 State拼凑组合而成 3.0模块中包含的部分组件 图片框,编辑框什么的 无 - 在代码中,其实“Ex_DirectUI”部分的代码是非常简洁易懂的,您可以直接看代码,上方的表格仅供参考 3.书签夹 书签夹相当于是很多图像的集合,而文件夹和书签夹的完美结合又和收藏夹有关系了,“MiniBlink浏览器”中很多代码是互相使用,互相联系的(其实是一个Ex_DirectUI菜单处理) 4.收藏夹 收藏夹对应的目录是“Database”,程序读取收藏夹中URL的方法是递归,注:“集_书签_保留菜单”是处理“书签夹”中的文件夹菜单。菜单一览: 收藏夹管理部分(这部分我觉得我还是做得很上心的): 5.高级选择夹 这么重要的东西我差点忘了说了:这里的图标和按钮位置是经过我严(粗)格(心)的计算得出来的: 同时为了达到和主流浏览器一样的选择夹效果,我还专(才)门(怪)计算了选择夹应该有的宽度和位置。 6.百度搜索框 好像比较鸡肋: 7.下载 现在还是在使用“_ download tool.exe” 8.更多功能更多功能可以自行探索哦!!!毕竟这里面还有不少功能呢!“MiniBlink浏览器”已经完善了大部分人定制浏览器的大部分功能 PS 使用前请将“浏览器 - 附加.e”编译为“NewProcess.exe”(子浏览框),将“文件_下载.e”编译为“_ download tool.exe”!!
Python 和 Chromium 爬虫通常是指利用 Python 语言编写脚本,结合 ChromiumChromium 浏览器的底层引擎 Blink 或者其衍生项目如 Puppeteer)来执行自动化网页抓取和渲染的技术。这是因为 Chromium 提供了丰富的 Web API,特别是 Puppeteer,它是基于 Chrome DevTools Protocol 的 Node.js 库,使得开发者能够控制浏览器并获取页面内容。 具体步骤如下: 1. **安装库**:首先,你需要安装 `puppeteer` 和可能依赖的一些 Python 库,如 `webdriver_manager`(用于管理 ChromeDriver),可以通过 pip 安装: ``` pip install puppeteer webdriver_manager ``` 2. **启动浏览器**:使用 Puppeteer 启动一个无头或有头的 Chrome 实例,并设置所需的配置,例如 headless(无界面模式): ```python from webdriver_manager.chrome import ChromeDriverManager from puppeteer import launch browser = await launch({ 'executablePath': ChromeDriverManager().install(), 'headless': True, # 或 False 如果需要可视化界面 }) ``` 3. **导航到目标 URL**: ```python page = await browser.newPage() await page.goto('https://www.example.com') ``` 4. **网页操作**:利用 Puppeteer 的 API 可以执行各种网页操作,如滚动、点击元素、等待加载完成等: ```python element = await page.waitForSelector('#some-element') # 等待某个元素出现 await page.click(element) ``` 5. **数据抓取**:找到需要的数据后,你可以通过 JavaScript 代码获取它们,然后保存为文件或处理成所需格式: ```python data = await page.evaluate(() => { // 使用JavaScript代码获取DOM中的数据 return document.querySelector('#data').innerText; }) ``` 6. **清理资源**:最后关闭浏览器实例: ```python await browser.close() ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值