【win32】day02-字符与编码

本文详细介绍了字符编码的历史与发展,包括ASCII、扩展ASCII、DBCS及Unicode编码,并探讨了这些编码在C语言中的应用及如何在Win32程序中处理字符编码问题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

字符编码

2.1 编码的历史

  2.1.1 ASCII  0-127    7位表示

  2.1.2 ASCII扩展码 0-255   8位表示

   代码页:通过代码页来切换对应的字符

  2.1.3 双字节字符集 DBCS

    使用一个或两个字节表示字符.       

       "AB"

          12 1 2

          A: 0x41 :0x8051

          B: 0x42 :0x8253

          

            1    2    3    4    5     6

          0x41  0x80 0x51  0x42  0x82  0x53   

          A      中      B      

  2.1.4 Unicode

     全部使用2个字节表示字符

"A B"

           2  2 2 2

          A: 0x0041 :0x8051

          B: 0x0042 :0x8253

------------内存当中,小字节在前,高字节在后------------

          1  2  3   4    5   6   7   8

         41  00  51  80   42  00  53  82

       带来的问题:??

       内存/硬盘等资源占用变大.

       对编程支持度.c语言输出字符串,遇到\0结束。

C语言和编码

2.2.1 单字节的字符和字符串

      char cText = 'A';

      char * pszText = "ABCD";

      

    2.2.2 宽字节的字符

      wchar_t cText = 'A'

      wchar_t * pszText = L"ABCD";

      

    2.2.3 相关函数

单字字符的函数,对应有多.宽字节的函数.

       strlen wcslen mbslen

       printf wprintf

       

    2.2.4 TCHAR

      为了程序中可以方便的支持的Unicode和多字节字符等,所以使用TCHAR来定义字符和字符串.

      根据_UNICODE宏开关,会将TCHAR编译成不同字符类型.

         #ifndef _UNICODE

    typedef char TCHAR

     #define __T(x) x

   #else

typedef wchar_t TCHAR

  #define __T(x)  L##x

 #endif

使用时,要增加TCHAR.H头文件支持,使用_UNICODE宏开关进行编译    

   CL window.c  /D_UNICODE

 或者在程序中

 #define _UNICODE

 #include "tchar.h"

 

定义方式:

   TCAHR * pszText = __T("ABCDEF");

   

代码使用:使用UNICODE宏开关,通知编译器选择编译的代码.

#ifndef _UNICODE

int nLen = strlen( pszText );

#else

int nLen = wcslen( pszText );

#endif

 

  2.2.5 Unicode的控制台打印

BOOL WriteConsole(

   HANDLE hConsoleOutput, //控制台输出流的句柄

   CONST VOID *lpBuffer,//输出的字符串的指针

   DWORD nNumberOfCharsToWrite,//输出的字符串的长度

LPDWORD lpNumberOfCharsWritten,

              // 返回已输出字符的数量

 LPVOID lpReserved ); // 保留值

打印256个字符,ascII

一个字符一个字符的显示, 7个字符会听到b的一声。0-127ascii字符,128-255是一堆问号。

因:128以上为中文的代码页,而中文需要2个字符表示。

 

设置code-page代码页;



需要加一个L, 双字节字符串定义。

Wchar_t *pszText = L”ABCD”;       

Wprintf, 双字节字符的打印函数


宽字节字符串,

多字节字符串

Wchar_t *pwszChs = L”我是程序员”;//unicodelen=5

Char *pszChs = “我是程序员”;//len = 10

Unicode码是宽字节字符中的一种。

// char.cpp : Defines the entry point for the console application.
//
#include "stdafx.h"
#include "stdlib.h"
#include "string.h"

#define _UNICODE

#include "tchar.h"
#include <windows.h>
// #ifndef _UNICODE
// 	typedef char TCHAR
// 	#define __T(x)	x
// #else
// 	typedef wchar_t TCHAR
// 	#define __T(x)  L##x
// #endif
// UNICODE
//  wchar_t * pszText = L"我是程序员";
// MUTIBYTE
//  char * pszText = "我是程序员";
void tchar( )
{
	TCHAR * pszText = __T("我是程序员") ;
}

void C_wchar( )
{
	wchar_t cText = 'A';
	wchar_t * pszText = L"ABCD";
	int nLen = wcslen( pszText );
	printf( "%d %s\n", nLen, pszText );
	wprintf( L"%s\n", pszText );

	wchar_t * pwszChs = L"我是程序员";
	nLen = wcslen( pwszChs );
	wprintf( L"W: %d %s\n", nLen, pwszChs );//printf打印不出来unicode码中文字符
	
	char * pszChs = "我是程序员";
	nLen = strlen( pszChs );
	printf( "M %d %s\n", nLen, pszChs );
}

void CoadPage( int nCodePage )
{
	SetConsoleOutputCP( nCodePage );
	char cText = 0;
	for( int nIndex=0; nIndex<256; nIndex++ )
	{
		printf( "%c ", cText );
		cText++;
	}
}

void ASCII( )
{
	char cText = 0;
	for( int nIndex=0; nIndex<256; nIndex++ )
	{
		printf( "%c ", cText );
		cText++;
	}
}

void c_char( )
{
	char * pszText = "Hello World!\n";
	int nLen = strlen( pszText );
	printf( "%d, %s", nLen, pszText );
}

int main(int argc, char* argv[])
{
	//c_char( );
	//ASCII( );
	//printf( "\n-------------------\n" );
	//CoadPage( 437 );
	//CoadPage( 936 );
	C_wchar();
	return 0;
}

#include "stdafx.h"
#include "stdlib.h"
#include "string.h"

#define _UNICODE

#include "tchar.h"
#include <windows.h>

void PrintUnicode( )
{
	HANDLE hOut = 
		GetStdHandle( STD_OUTPUT_HANDLE );
	wchar_t * pszText = L"我是程序员";
	WriteConsoleW( hOut,pszText,
		wcslen(pszText), NULL, NULL );

	wchar_t szText[2] = { 0 };
	for( BYTE nHigh=0x48; nHigh<0x9F; nHigh++ )
	{
		for( BYTE nLow=0; nLow<0xFF; nLow++ )
		{
			szText[0] = MAKEWORD( nLow, nHigh );
			WriteConsoleW( hOut,szText,
				wcslen(szText), NULL, NULL );
		}
	}
}

int main(int argc, char* argv[])
{
	PrintUnicode( );
	return 0;
}

Win32程序与编码    

2.3.1 Win32 API的定义                                     

 每个API对多字节字符和UNICODE分别有不同的版本.                                            

 MessageBox                                            

    MessageBoxA  多字节字符                            

    MessageBoxW  UNICODE字符    

2.3.2 字符的定义,使用TEXT,Winnt.h提供定义             

#ifdef  UNICODE                                       

#define __TEXT(quote) L##quote                        

#else   /* UNICODE */                                 

#define __TEXT(quote) quote                           

#endif /* UNICODE */                                  

                                                      

TCHAR * pszText = TEXT( "ABCD" );                     

                                                          

2.3.3 字符转换                                            

  int WideCharToMultiByte(                                

  UINT CodePage, //代码页                               

  DWORD dwFlags, //转换方式                             

  LPCWSTR lpWideCharStr, //需要被转换WCHAR地址          

  int cchWideChar, //需要被转换WCHAR的长度              

  LPSTR lpMultiByteStr,//用于存放转换后的结果BUFF       

  int cchMultiByte, //BUFF的长度                        

  LPCSTR lpDefaultChar,//使用的缺省字符串的地址         

  LPBOOL lpUsedDefaultChar //缺省字符串被使用的标识     

);                                                      

                                                        

int MultiByteToWideChar(                                

  UINT CodePage,// 代码页                               

  DWORD dwFlags,// 转换方式                             

  LPCSTR lpMultiByteStr, // 需要被转换CHAR地址          

  int cchMultiByte,//需要被转换CHAR的长度               

  LPWSTR lpWideCharStr,//用于存放转换后的结果BUFF       

  int cchWideChar );//BUFF的长度                        

                                                        

使用方法:                                                      

 1 将要转换的字符串,传递给函数,从返回值中获取转换后字符串的长度。                     

 2 分配字符串空间                                       

 3 再次调用函数,并将分配的空间传递给函数,获取结果.   

// WinChar.cpp : Defines the entry point for the application.
//
#include "stdafx.h"
#include "stdlib.h"

/*
int WINAPI MessageBoxA(
    HWND hWnd ,
    LPCSTR lpText,
    LPCSTR lpCaption,
    UINT uType);

int WINAPI MessageBoxW(
    HWND hWnd ,
    LPCWSTR lpText,
    LPCWSTR lpCaption,
    UINT uType);

#ifdef UNICODE
#define MessageBox  MessageBoxW
#else
#define MessageBox  MessageBoxA
#endif // !UNICODE
*/
void MyMessageBox( )
{
	MessageBox( NULL, TEXT("Hello Wide"),
		TEXT("Wide"), MB_OK );
}

void Wide2Multi( )
{
	WCHAR * pwszText = L"Wide2Multi";
	//计算转换后的字符串长度
	int nLen = WideCharToMultiByte( 
		CP_ACP, 0, pwszText, wcslen(pwszText),
		  NULL, 0, NULL, NULL );
	//分配内存
	char * pszText = (char *)malloc( nLen );
	//获取结果
	WideCharToMultiByte( 
		CP_ACP, 0, pwszText, wcslen(pwszText),
		pszText, nLen, NULL, NULL );
	//
	MessageBoxA( NULL, pszText, "Multi", MB_OK );
	free( pszText );
}

void Multi2Wide( )
{
	CHAR * pszText = "Multi2Wide";
	//获取转换后需要的BUFF的长度
	int nLen = MultiByteToWideChar( CP_ACP,
		0, pszText, strlen(pszText),
		NULL, 0 );
	//分配BUFF的空间
	WCHAR * pwszText = 
		(WCHAR *)malloc( nLen * sizeof(WCHAR) );
	//进行转换
	MultiByteToWideChar( CP_ACP, 
		0, pszText, strlen(pszText),
		pwszText, nLen );
	
	MessageBoxW( NULL,pwszText, 
		L"Wide", MB_OK );
	free( pwszText );
}

int APIENTRY WinMain(HINSTANCE hInstance,
                     HINSTANCE hPrevInstance,
                     LPSTR     lpCmdLine,
                     int       nCmdShow)
{
 	//Multi2Wide( );
	Wide2Multi( );
	return 0;
}





PS F:\python> & F:/python/myenv/Scripts/python.exe f:/python/day/day-7.py b'<!DOCTYPE html>\n<html lang="zh-CN">\n<head>\n <meta charset="utf-8">\n <title>\xe7\x99\xbe\xe5\xba\xa6\xe5\xae\x89\xe5\x85\xa8\xe9\xaa\x8c\xe8\xaf\x81</title>\n <meta http-equiv="Content-Type" content="text/html; charset=utf-8">\n <meta name="apple-mobile-web-app-capable" content="yes">\n <meta name="apple-mobile-web-app-status-bar-style" content="black">\n <meta name="viewport" content="width=device-width, user-scalable=no, initial-scale=1.0, minimum-scale=1.0, maximum-scale=1.0">\n <meta name="format-detection" content="telephone=no, email=no">\n <link rel="shortcut icon" href="https://www.baidu.com/favicon.ico" type="image/x-icon">\n <link rel="icon" sizes="any" mask href="https://www.baidu.com/img/baidu.svg">\n <meta http-equiv="X-UA-Compatible" content="IE=Edge">\n <meta http-equiv="Content-Security-Policy" content="upgrade-insecure-requests">\n <link rel="stylesheet" href="https://ppui-static-wap.cdn.bcebos.com/static/touch/css/api/mkdjump_aac6df1.css" />\n</head>\n<body>\n <div class="timeout hide-callback">\n <div class="timeout-img"></div>\n <div class="timeout-title">\xe7\xbd\x91\xe7\xbb\x9c\xe4\xb8\x8d\xe7\xbb\x99\xe5\x8a\x9b\xef\xbc\x8c\xe8\xaf\xb7\xe7\xa8\x8d\xe5\x90\x8e\xe9\x87\x8d\xe8\xaf\x95</div>\n <button type="button" class="timeout-button">\xe8\xbf\x94\xe5\x9b\x9e\xe9\xa6\x96\xe9\xa1\xb5</button>\n </div>\n <div class="timeout-feedback hide-callback">\n <div class="timeout-feedback-icon"></div>\n <p class="timeout-feedback-title">\xe9\x97\xae\xe9\xa2\x98\xe5\x8f\x8d\xe9\xa6\x88</p>\n </div>\n\n<script src="https://ppui-static-wap.cdn.bcebos.com/static/touch/js/mkdjump_v2_21d1ae1.js"></script>\n</body>\n</html>\n' PS F:\python>
最新发布
05-26
### Python 脚本运行返回 HTML 页面的原因分析 当 Python 脚本执行网络请求并接收到 HTML 内容而不是预期的数据时,通常是因为目标网站实施了反爬机制或者请求参数配置不当。以下是可能原因及其解决方案: #### 1. **未设置 User-Agent** 许多网站会检测 HTTP 请求头中的 `User-Agent` 字段来判断请求是否来自浏览器。如果缺少此字段,某些站点可能会返回错误页面或验证码。 可以通过修改请求头解决该问题: ```python import requests headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36' } response = requests.get('https://example.com', headers=headers) print(response.text) ``` #### 2. **触发反爬虫机制** 部分网站会对短时间内频繁访问的行为进行限制,这可能导致返回 HTML 验证码页面或其他干扰内容。可以尝试以下方法规避此类问题: - 添加随机延迟时间以模拟人类行为[^1]。 - 使用代理 IP 地址池减少被封禁的风险。 - 利用 Selenium 或 Pyppeteer 模拟真实浏览器操作。 #### 3. **URL 参数缺失或错误** 确保传递给服务器的所有必要查询字符串都已正确附加到 URL 上。例如,有些 API 接口需要特定版本号、密钥或者其他认证信息才能正常工作。 #### 4. **编码方式不匹配** 有时即使获取到了正确的响应数据,但由于解码失败也会显示乱码现象。建议先查看原始字节流再决定如何处理: ```python content = response.content.decode('utf-8') ``` #### 5. **重定向循环** 如果遇到多次跳转最终仍停留在登录界面,则可能是由于未能妥善保存 Cookies 所致。启用 Session 对象有助于保持会话状态连续性: ```python session = requests.Session() login_data = {'username':'yourname','password':'passwd'} res_login = session.post(login_url,data=login_data) if res_login.status_code == 200 and "欢迎回来" in res_login.text: print("登陆成功") else : print("登陆失败") ``` 以上措施能够有效改善因各种因素造成的异常情况。当然,在实际开发过程中还需要针对具体业务场景灵活调整策略[^2]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值