Python3 爬虫学习
a_shen_ge
ashen
展开
-
requests
访问网络的包 1.requests import requests requests里有多种方式的访问网络资源 一般常用session 保持一个会话不断开 s = requests.session() 设置头部信息 #s.headers = {} 设置cookies #s.cookies = {} 设置post信息 #data = {} 设置代理 s.proxies = {'http'...原创 2018-09-25 22:09:58 · 124 阅读 · 0 评论 -
Html 简单解析
1. Xpath ''' xpath 比 BeautifulSoup 快 nodename 选取此节点的所有子节点。 / 从根节点选取。 // 从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置。 . 选取当前节点。 .. 选取当前节点的父节点。 @ ...原创 2018-09-25 22:42:55 · 130 阅读 · 0 评论 -
python mongdb 和 mysql简单使用
mongdb from pymongo import MongoClient from bson import ObjectId # _id是mongodb自动生成的id,其类型为ObjectId,想要使用就需要转换类型。 #help 远程的话 需要这样操作 #uri = "mongodb://%s:%s@%s" % ( #quote_plus(user), quote_plus(passwor...原创 2018-09-25 23:09:16 · 199 阅读 · 0 评论 -
Selenium 的 常用操作
Selenium 的好处: 有些网站的JS或加密 太复杂,可破动态加载的网页,节约时间成本,模拟游览器进行操作简单 若想 找刺激 ,就先去各大网站的登陆页面试试水。 套路就一个: 抓包分析参数,利用游览器的监听事件,找到参数的大概位置,下断点,一步一步调试游览器。找到怎样加密的。。 from selenium import webdriver 需要下载启动的exe文件: 火狐:geckodrive...原创 2018-09-26 23:09:39 · 186 阅读 · 0 评论