关闭

爬取百度贴吧所有精品贴照片

#coding=utf-8 import os import random import requests from lxml import etree from urllib.parse import urlparse import urllib.request as urllib from bs4 import BeautifulSoup user_agent_list = ["Mozil...
阅读(49) 评论(0)

爬取百度贴吧某帖子的所有照片

#coding=utf-8 import random import requests import urllib.request as urllib from lxml import etree from bs4 import BeautifulSoup user_agent_list = ["Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/53...
阅读(45) 评论(0)

《流畅的Python》第一章学习笔记

1.1 一摞Python风格的纸牌 Python 解释器碰到特殊的句法时,会使用特殊方法去激活一些基本的对象操作,这些特殊方法的名 字以两个下划线开头,以两个下划线结尾(例如__getitem__)。比如 obj[key] 的背后就是 __getitem__ 方法,为了能求得my_collection[key] 的值,解释器实际上会调用 my_collection.__...
阅读(31) 评论(0)

selenium实战二:登入QQ空间

from selenium import webdriver from selenium.webdriver.common.action_chains import ActionChains from selenium.webdriver.common.keys import Keys PostUrl = "https://qzone.qq.com/index.html" driver=w...
阅读(27) 评论(0)

selenium实战一:播放音悦台高清Mv

from selenium import webdriver from selenium.webdriver.common.action_chains import ActionChains from selenium.webdriver.common.keys import Keys PostUrl = "http://www.yinyuetai.com/" driver=webdriv...
阅读(26) 评论(0)

Xpath实战四:W3S网上的例子

#coding=utf-8 import requests from lxml import etree def getHtml(url): headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:56.0) Gecko/20100101 Firefox/56.0'} page = ...
阅读(30) 评论(0)

Xpath实战三:下载煎蛋网妹子照片

#coding=utf-8 import requests import urllib.request from lxml import etree def getHtml(url): headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:56.0) Gecko/20100101 Firefox/...
阅读(42) 评论(0)

Xpath实战二:下载百度贴吧的照片

#coding=utf-8 import requests import urllib.request from lxml import etree def getHtml(url): page = requests.get(url) html =page.text return html def getImg(html): html = etr...
阅读(32) 评论(0)

Xpath实战一:解析爬取糗事百科段子

#coding=utf-8 import requests from lxml import etree def getHtml(url): page = requests.get(url) html = page.text return html def getImg(html): texts = [] html = etree.HTML(...
阅读(45) 评论(0)

Python爬虫实战(十一):两种简单的方法爬取动态网页

#一网页POST方式 #coding=utf-8 import requests from bs4 import Tag from bs4 import BeautifulSoup from prettytable import PrettyTable def getHtml(url,pageNo): data = {#反复分析得出只需要提交这两个参数即可 ...
阅读(105) 评论(0)

Python爬虫实战(十):爬取Linux公社资源站的所有电子资源

#coding=utf-8 import re import requests from tenacity import retry, stop_after_attempt @retry(stop=stop_after_attempt(3)) def get_html(url): '''获取页面源代码''' headers = {'User-Agent': 'Mozilla/5....
阅读(71) 评论(0)

Python爬虫实战(九):爬取动态网页

#coding=utf-8 import re import json import requests from prettytable import PrettyTable def getHtml(url): data = { 'page':1, 'num':40, 'sort':'symbol', 'asc':1,...
阅读(56) 评论(0)

Python爬虫实战(八):爬取电影天堂的电影下载链接

#coding=utf-8 import re import requests import xlsxwriter from bs4 import BeautifulSoup def getHtml(url): headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:56.0) Gecko/20100...
阅读(92) 评论(0)

Python学习笔记(三):常用内置函数学习

一.如何查看Python3的所有内置函数 命令:dir(__builtins__) 效果如下: dir(__builtins__) ['ArithmeticError', 'AssertionError', 'AttributeError', 'BaseException', 'BlockingIOError', 'BrokenPipeError', 'BufferError', ...
阅读(307) 评论(0)

Python学习笔记(二):tuple属性及方法浅析

元组是存放任意元素集合,不能修改其内容. 简单创建元组 In [1]: T = () #创建一个空的元组 In [2]: T Out[2]: () In [3]: T = tuple() #创建一个空的元组 In [4]: T Out[4]: () In [8]: T = (1,) #创建包含一个对象的元组,不能写成T = (1),这会被解释成T =...
阅读(163) 评论(0)

Python学习笔记(一):list属性及方法浅析

列表学习。 List是python中的基本数据结构之一。创建一个列表的方法 L = [1,2,3,'a'] 通过help(list)查看列表的属性及方法。 >>> help(list) Help on class list in module builtins: class list(object)  |  list() -> new empty list  |...
阅读(264) 评论(0)

Ptyhon爬虫实战(七):爬取汽车公告网上的批次排量等信息

网址:http://www.cn357.com/notice/ 直接上代码。 #coding=utf-8 import re import requests def getHtml(url): try: page = requests.get(url) html = page.text return html ...
阅读(27434) 评论(0)

Python爬虫实战(六):爬取糗事百科段子

直接上代码: #coding=utf-8 import requests import urllib.request from bs4 import BeautifulSoup def getHtml(url): page = requests.get(url) html =page.text return html def getImg(h...
阅读(32058) 评论(0)

Python爬虫实战(五) :下载百度贴吧帖子里的所有图片

准备工作: 目标网址:https://tieba.baidu.com/p/5113603072 目的:    下载该页面上的所有楼层里的照片 第一步:分析网页源码 火狐浏览器  ---> 在该页面上右击 “查看页面源代码”,会打开一个新的标签页。 第二步:查找图片源地址 在新标签页上ctrl + F,输入jpg,找到第一个图片的源地址 BTW,怎么知道这个链接是不是第...
阅读(46594) 评论(2)

Python爬虫实战(四) :下载煎蛋网所有妹子照片

煎蛋网是一个适合开车的网站,各种妹子福利图片。 网站:http://jandan.net/ooxx 里面有两种格式的图片:gif和jpg,写个程序将所有页面的妹子图全部下载下来。 #coding=utf-8 import requests import urllib.request from bs4 import BeautifulSoup def getHtml(url):...
阅读(13288) 评论(0)
316条 共16页1 2 3 4 5 ... 下一页 尾页
    个人资料
    • 访问:267169次
    • 积分:4740
    • 等级:
    • 排名:第6746名
    • 原创:316篇
    • 转载:0篇
    • 译文:0篇
    • 评论:16条
    文章分类
    最新评论