python爬虫
醉小义
学习算法让自己有更大的提升
展开
-
爬虫代码
from selenium import webdriverimport requestsfrom selenium.webdriver.chrome.options import Optionsimport timeheaders ={ "User-Agent": "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (K...原创 2020-01-16 19:50:45 · 1439 阅读 · 1 评论 -
pyquery的使用
#coding=utf-8from pyquery import PyQuery as pqhtml = '''<div class="shop"> <a class="shopname J_Mou> <span class="dsrs"> <span...原创 2018-03-30 14:35:26 · 161 阅读 · 0 评论 -
BeautifulSoup库的使用
其实对很多人来说用起来是不方便的,加上需要记很多规则,所以用起来不是特别熟练,而这节我们提到的beautifulsoup就是一个非常强大的工具,爬虫利器。beautifulSoup “美味的汤,绿色的浓汤”一个灵活又方便的网页解析库,处理高效,支持多种解析器。利用它就不用编写正则表达式也能方便的实现网页信息的抓取快速使用通过下面的一个例子,对bs4有个简单的了解,以及看一下它的强大之处:from ...转载 2018-03-26 14:15:58 · 263 阅读 · 0 评论 -
PyQuery库的详解
PyQuery库也是一个非常强大又灵活的网页解析库,如果你有前端开发经验的,都应该接触过jQuery,那么PyQuery就是你非常绝佳的选择,PyQuery 是 Python 仿照 jQuery 的严格实现。语法与 jQuery 几乎完全相同,所以不用再去费心去记一些奇怪的方法了。官网地址:http://pyquery.readthedocs.io/en/latest/jQuery参考文档: ht...转载 2018-03-26 14:55:32 · 2024 阅读 · 0 评论 -
金山词霸爬虫翻译
# coding=utf-8import urllib.requestfrom bs4 import BeautifulSoupfrom colorama import init,Fore # init是初始化,Fore是字体颜色init(autoreset=True) # 初始化root_url = 'http://www.iciba.com/'while True: ...原创 2018-04-08 21:37:31 · 1408 阅读 · 0 评论 -
使用webdriver打开本地浏览器--python版
背景:经常性的,在项目中我们需要打开不同配置的不同浏览器。在学习selenium的过程中,打开本地火狐和本地chrome是一个稍微麻烦的事情,网上的java版本资料很多,但是python版的不多,在这里,我研究了一份关于python版Selenium打开浏览器的文档,供自己备注,也希望给大家一些参考。1.打开默认的火狐browser = webdriver.Firefox() 2.打开本地配置的火...转载 2018-03-26 16:13:03 · 4054 阅读 · 3 评论 -
Selenium3.0 文档——selenium.webdriver.common.by
selenium.webdriver.common.by.By支持的定位器分类。CLASS_NAME = 'class name'CSS_SELECTOR = 'css selector'ID = 'id'LINK_TEXT = 'link text'NAME = 'name'PARTIAL_LINK_TEXT = 'partial link text'TAG_NAME = 'tag...转载 2018-03-26 17:49:58 · 1888 阅读 · 0 评论 -
爬虫百度api翻译
翻译API HTTP地址http://api.fanyi.baidu.com/api/trans/vip/translate您需要向该地址通过POST或GET方法发送下列字段来访问服务字段名类型必填参数描述备注qTEXTY请求翻译queryUTF-8编码fromTEXTY翻译源语言语言列表(可设置为auto)toTEXTY译文语言语言列表(不可设置为auto)appidINTYAPP ID可在管理...原创 2018-04-09 12:21:21 · 561 阅读 · 0 评论 -
b'\\u4f60\\u597d'编码问题解决
b'{"from":"en","to":"zh","trans_result":[{"src":"hello","dst":"\\u4f60\\u597d"}]}'只需要一步 eval(b'{"from":"en","to":"zh","tr原创 2018-04-09 12:25:13 · 8403 阅读 · 0 评论 -
'str' object is not callable可能的原因之一
今天写代码遇到了一个问题TypeError: 'str' object is not callable。给大家看看我的代码:(代码功能说明:用正则表达式匹配数字并对数字进行+1操作,然后替换原数字)str='literal books=1000'def add1(match): val=match.group() num=int(val)+1 return str(num...转载 2018-04-02 10:51:55 · 22819 阅读 · 0 评论 -
Selenium库的使用
一、什么是Seleniumselenium 是一套完整的web应用程序测试系统,包含了测试的录制(selenium IDE),编写及运行(Selenium Remote Control)和测试的并行处理(Selenium Grid)。Selenium的核心Selenium Core基于JsUnit,完全由JavaScript编写,因此可以用于任何支持JavaScript的浏览器上。selenium...转载 2018-03-27 13:29:45 · 319 阅读 · 0 评论 -
字符串格式的json转化为字典
json="{\"count\":9,\"sub_images\":[{\"url\":\"http:\\/\\/p3.pstatp.com\\/origin\\/32040003ff7b9e3d5b0e\",\"width\":690,\"url_list\":[{\"url\":\"http:\\/\\/p3.pstatp.com\\/origi原创 2018-03-20 21:21:02 · 3107 阅读 · 0 评论 -
利用python对字符串处理,取中间的字符
比如 str = "(sdadsafsfsdfdgfdghfhfghgjg)"取出括号里面的内容:str.strip()[1:-1]原创 2018-03-20 21:15:47 · 17740 阅读 · 0 评论 -
pycharm格式的正则替换key:value到‘key’:'value',
CTRL+R进入替换原创 2018-03-16 11:38:06 · 1994 阅读 · 3 评论 -
requests.session()出错 显示: No module named 'urllib3'
原创 2018-03-18 21:48:03 · 6757 阅读 · 2 评论 -
html中相对路径的处理
首先说下什么叫URL拼接,我们有这么一个HTML片段:1<a href="../../a.html">click me</a>做为一只辛苦的爬虫,我们要跟踪到这个click me指向的页面,假设这个片段来自:http://www.xxxdu.com,那么目标页面是什么呢?显然不是1http://www.xxxdu.com/../../a.html而是1http://www....转载 2018-03-19 09:58:07 · 1862 阅读 · 0 评论 -
爬虫链接的解析
1.urlparse()属于urllib.parse在urlparse世界里面,一个标准的URL链接格式如下scheme://nrtlooc/path;paramters?query#fragment所以,一个url='http://www.baidu.com/index.html;user?id=5#comment'我们使用urlparse的话,就可以被分成6个部分(scheme='http',...转载 2018-03-19 10:03:12 · 1328 阅读 · 0 评论 -
xpath的基本语法01
一、选取节点常用的路劲表达式:表达式描述实例 nodename选取nodename节点的所有子节点xpath(‘//div’)选取了div节点的所有子节点/从根节点选取xpath(‘/div’)从根节点上选取div节点//选取所有的当前节点,不考虑他们的位置xpath(‘//div’)选取所有的div节点.选取当前节点xpath(‘./div’)选取当前节点下的div节点..选取当前节点的父节点x...转载 2018-03-13 18:51:58 · 219 阅读 · 0 评论 -
爬虫cookie的获取与使用
# coding=UTF-81.打印cookieimport http.cookiejarimport urllib.requestcookie = http.cookiejar.CookieJar()handler = urllib.request.HTTPCookieProcessor(cookie)opener = urllib.request.build_opener...原创 2018-03-19 20:31:38 · 4959 阅读 · 0 评论 -
python爬虫异常的处理方式
# coding=UTF-8from urllib import request,errortry: response = request.urlopen('http://cuiqingcai.com/index.html')except error.URLError as e: print(e.reason) print(e.reason)try: ...原创 2018-03-19 20:44:30 · 1035 阅读 · 0 评论 -
python中xpath的使用
XPath在Python的爬虫学习中,起着举足轻重的地位,对比正则表达式 re两者可以完成同样的工作,实现的功能也差不多,但XPath明显比re具有优势,在网页分析上使re退居二线。XPath介绍: 是什么? 全称为XML Path Language 一种小型的查询语言 说道XPath是门语言,不得不说它所具备的优点: 1) 可在XML中查找信息 2) 支持HTML的查找 3) 通过元素和属性进行...转载 2018-03-13 20:04:26 · 658 阅读 · 0 评论 -
python爬虫之xpath的基本使用
一、简介 XPath 是一门在 XML 文档中查找信息的语言。XPath 可用来在 XML 文档中对元素和属性进行遍历。XPath 是 W3C XSLT 标准的主要元素,并且 XQuery 和 XPointer 都构建于 XPath 表达之上。 参照二、安装1pip3 install lxml 三、使用 1、导入1from lxml import etree 2、基本使用12345678...转载 2018-03-13 20:06:14 · 801 阅读 · 0 评论 -
requests的用法详情
# coding=utf-8import requestsimport jsonresponse = requests.get('https://www.baidu.com/')print(type(response))print(response.status_code)#print(response.text)print(type(response.text))print(r...原创 2018-03-20 12:29:25 · 385 阅读 · 0 评论 -
Scrapy框架中选择器的用法
Scrapy提取数据有自己的一套机制,被称作选择器(selectors),通过特定的Xpath或者CSS表达式来选择HTML文件的某个部分Xpath是专门在XML文件中选择节点的语言,也可以用在HTML上。CSS是一门将HTML文档样式化语言,选择器由它定义,并与特定的HTML元素的样式相关联。XPath选择器常用的路径表达式,这里列举了一些常用的,XPath的功能非常强大,内含超过100个的内建...转载 2018-03-14 21:29:43 · 331 阅读 · 0 评论