爬虫
爬虫学的好,牢饭吃得饱
·惊鸿
本人已脱离此行业,博客不在更新
展开
-
Chrome handless
from selenium import webdriverfrom selenium.webdriver.chrome.options import Optionsdef share_browser(): chrome_options = Options() chrome_options .add_argument( ' --headless') chrome_options.add_argument( ' --disable-gpu') # path是你自己的c...原创 2021-11-05 09:41:34 · 628 阅读 · 0 评论 -
selenium从0到掌握
selenium从0到掌握简介安装安装相应的浏览器驱动不自动关闭浏览器定位语法单个元素`element` 多个元素`elements` 多一个sid定位name 定位class 定位tag 定位(标签)css定位linkpartial_link 定位by类定位导入类具体语法By定位与8种基本定位方法类比浏览器控制修改浏览器窗口大小浏览器的前进、后退浏览器刷新浏览器窗口切换webdriver 常见操作例子鼠标控制常见方法单击左键右击双击拖动鼠标悬停键盘控制定义导入类常见的操作Keys类设置元素等待定义exp原创 2022-05-26 13:23:16 · 350 阅读 · 0 评论 -
理论的小爬
1.正则表达式正则表达式(Regular Expression)是一种文本模式,包括普通字符(例如,a 到 z 之间的字母)和特殊字符(称为"元字符")。正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串。正则表达式是繁琐的,但它是强大的,学会之后的应用会让你除了提高效率外,会给你带来绝对的成就感。只要认真阅读本教程,加上应用的时候进行一定的参考,掌握正则表达式不是问题。许多程序设计语言都支持利用正则表达式进行字符串操作格式:^[ a-z0-9_-]{1-15}$ .原创 2021-09-24 09:49:34 · 76 阅读 · 0 评论 -
Phantomjs
原创 2021-11-04 16:18:32 · 304 阅读 · 0 评论 -
xpath
一、基本语法原创 2021-11-01 14:22:52 · 106 阅读 · 0 评论 -
安装MongoDB数据库
Windows环境下安装MongoDB数据库要想直接操作MongoDB数据库,需要在系统中安装它。这里以Windows系统为例,讲解如何从官网中下载MongoDB,井且安装和配置到电脑上,具体步骤如下:一、下载MongoDB数据库打开MongoDB下载网站(按住control并单击),进入到官方网站(如图所示):选择下载的版本:一般都是推荐下载最新版本(进去默认第一个就是最新版本),如果个别电脑后续不行,推荐下载老版本使用弹...原创 2021-12-08 00:12:16 · 1296 阅读 · 0 评论 -
实用的小爬
爬取网站为豆瓣250榜单 : 豆瓣电影 Top 250Xpath:爬取豆瓣前25名的电影名评价人数 评语from lxml import etreeimport requestsimport re #导入需要的库alllist=[]url = "https://movie.douban.com/top250"header = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 ...原创 2021-10-12 19:08:40 · 50 阅读 · 0 评论 -
JSONPath-简单入门
基础网站:JSONPath-简单入门_luxideyao的专栏-CSDN博客import jsonobj = json.load(open("kfc_1.json","r",encoding="utf-8"))# table =jsonpath.jsonpath(obj,'$.store.book[*].author')#book下面的所有author元素值# table = jsonpath.jsonpath(obj,'$.store.book[*].color')print(table)原创 2021-11-02 13:07:42 · 399 阅读 · 0 评论 -
scrapy
原创 2021-11-05 09:45:45 · 342 阅读 · 0 评论 -
URLlib的理论与操作
1、一个类型六个方法 import urllib.requesturl="hht://www.baidu.com"headers = { "User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3877.400 QQBrowser/10.8.4506.400"}re...原创 2021-10-30 18:44:09 · 783 阅读 · 0 评论 -
selenium
下载驱动地址:http://chromedriver.storage.googleapis.com/index.html原创 2021-11-04 16:19:29 · 6448 阅读 · 0 评论 -
MongoDB数据库
MySQL:当数据库结构已经确定,只对数据内容修改MongoDB:需要对数据表结构进行修改的时候(多变)1、什么是MongoDB?原创 2021-12-02 15:45:29 · 1095 阅读 · 0 评论 -
selenium读取本地HTML文件
selenium读取本地HTML文件格式例子格式file:/// +本地文件的绝对路径例子driver.get("file:///D:/专业文件/Vue/简单测试/index.html")原创 2022-05-27 18:23:26 · 1218 阅读 · 2 评论 -
BeautifuiSoup
# from bs4 import BeautifulSoup## soup = BeautifulSoup(open("caogao1.html",encoding="utf-8"),'lxml')# print(soup)#.* 输出第一个匹配*的数据# print(soup.li)第一个 li标签 print(soup.a)第一个a标签# print(soup.a.attrs) #输出a标签 的所有属性值#bs4的一些函数#1)# find()# pr...原创 2021-11-02 17:33:40 · 157 阅读 · 3 评论